Synchronisation de jeux de données

Synchronisation de jeux de données

Synchonisation de données par réseau

Résif-DC exploite un service de synchronisation des données  (serveur rsync) qui fonctionne par réseau. La synchronisation des données restreintes est soumise à l’accord du PI de la campagne.

Résumé

Rsync permet de transférer des données rapidement et incrémentalement. L’outil est inclus dans la plupart des distributions standard des systèmes Unix (eg. LinuxMacOS). Il existe des versions disponibles pour Windows.

Rsync est destiné au téléchargement de gros volumes de données, alors que les téléchargements basés sur les services web sont plus adaptés à des petites requêtes ciblées (petites fenêtres de temps, données filtrées par qualité, etc).

Pour accéder aux données Résif par synchonisation, merci de nous contacter en décrivant vos besoins. Résif examine ce type de demande d’accès au cas par cas.

Instructions pour les données ouvertes au format PH5

For downloading a complete open dataset in PH5 format, you need first to get the name of the rsync module. It is advertised in the persentation page of the network (in the comments section) if available.

Pour télécharger un jeu de données ouvert complet au format PH5, il vous faut avant tout connaître le nom du module rsync du réseau sismologique. Celui-ci est indiqué sur la page de présentation du réseau dans la section « commentaire »

Lister les fichiers distant :

rsync rsync://rsync.resif.fr/NETWORK_MODULE_NAME

Télécharger la donnée localement :

rsync -rltvh --compress-level=1 rsync://rsync.resif.fr/NETWORK_MODULE_NAME /data

Exemple d’utilisation pour les données restreintes

Une fois votre demande acceptée, Résif-DC vous fournira (par couriel) un nom de module rsync, aisni qu’un login et un mot de passe temporaires, que vous pourrez utiliser en ligne de commande (ou scripter), selon l’exemple fourni ci-dessous.

Note : votre machine doit être configurée pour autoriser les accès au serveur rsync.resif.fr sur le port TCP port 873 (à vérifier avec votre service informatique).

# STEP 1
# enter your local destination directory (create this directory before running) :
export DESTINATION="/my/local/directory"

# STEP 2
# enter your credentials to access the data. These are provided by RESIF (*do not disclose!*)
export RSYNC_MODULE="xxxx"
export RSYNC_USER="xxxx"
export RSYNC_PASSWORD="xxxx"

# STEP 3
# datacenter specific parameters
export RSYNC_SERVER="rsync.resif.fr"
export RSYNC_OPTS="-rltvh --compress-level=1"
export DRYRUN="-n --stats"

# STEP 4
# launch a trial transfer (recommended)
rsync $RSYNC_OPTS $DRYRUN rsync://$RSYNC_USER@$RSYNC_SERVER/$RSYNC_MODULE/ $DESTINATION

# You are now ready to transfer -------------

# STEP 5
# launch full transfer.
# note : running this command many times will update your destination directory with new/modified files since last transfer.
# This will not delete any files on your side that don't exist anymore on the datacentre side.

rsync $RSYNC_OPTS rsync://$RSYNC_USER@$RSYNC_SERVER/$RSYNC_MODULE/ $DESTINATION

# Tips -------------------------------------
# ask us for more complex usages, or read rsync manpage.
# http://rsync.samba.org/ftp/rsync/rsync.html
#

# listing remote contents (like 'ls -l') without transferring:

rsync $RSYNC_OPTS rsync://$RSYNC_USER@$RSYNC_SERVER/$RSYNC_MODULE/

# using shell-style wildcards to transfer only the files you want :

rsync $RSYNC_OPTS rsync://$RSYNC_USER@$RSYNC_SERVER/$RSYNC_MODULE/2012/KES0* $DESTINATION
rsync $RSYNC_OPTS rsync://$RSYNC_USER@$RSYNC_SERVER/$RSYNC_MODULE/2012/*/HHZ.D/*.??? $DESTINATION

# settings options to remove files in your destination directory that do not exist anymore on the datacentre side (be careful!):

export RSYNC_OPTS="$RSYNC_OPTS --delete"

Bugs, limitations

Les données sont livrées au format PH5 ou sous forme de fichiers journaliers au format miniSEED rangés en une arborescence SDS. Les fichiers journaliers sont la ganularité la plus fine qui puisse être obtenue par rsync.

Les accès aux données restreintes sont founis temporairement et seront soumis à la bande passante disponible à Résif-DC.

Les métadonnées, les petits volumes de données (typiquement, moins de 100 Go), ou les fenêtres de temps inférieures à un jour doivent être téléchargées en utilisant les services WEB.

Rechercher