Synchronisation de jeux de données

Synchronisation de jeux de données

Synchonisation de données par réseau

Résif-DC exploite un service de synchronisation des données  (serveur rsync) qui fonctionne par réseau. La synchronisation des données restreintes est soumise à l’accord du PI de la campagne.

Résumé

Rsync permet de transférer des données rapidement et incrémentalement. L’outil est inclus dans la plupart des distributions standard des systèmes Unix (eg. LinuxMacOS). Il existe des versions disponibles pour Windows.

Rsync est destiné au téléchargement de gros volumes de données, alors que les téléchargements basés sur les services web sont plus adaptés à des petites requêtes ciblées (petites fenêtres de temps, données filtrées par qualité, etc).

Pour accéder aux données Résif par synchonisation, merci de nous contacter en décrivant vos besoins. Résif examine ce type de demande d’accès au cas par cas.

Exemple d’utilisation

Une fois votre demande acceptée, Résif-DC vous fournira (par couriel) un nom de module rsync, aisni qu’un login et un mot de passe temporaires, que vous pourrez utiliser en ligne de commande (ou scripter), selon l’exemple fourni ci-dessous.

Note : votre machine doit être configurée pour autoriser les accès au serveur rsync.resif.fr sur le port TCP port 873 (à vérifier avec votre service informatique).

# STEP 1
# enter your local destination directory (create this directory before running) :
export DESTINATION="/my/local/directory"

# STEP 2
# enter your credentials to access the data. These are provided by RESIF (*do not disclose!*)
export MODULE="xxxx"
export LOGNAME="xxxx"
export RSYNC_PASSWORD="xxxx"

# STEP 3
# datacenter specific parameters
export SERVER="rsync.resif.fr"
export OPTS="-rltvh --compress-level=1"
export DRYRUN="-n --stats"

# STEP 4
# launch a trial transfer (recommended)
rsync $OPTS $DRYRUN rsync://$LOGNAME@$SERVER/$MODULE/ $DESTINATION

# You are now ready to transfer -------------

# STEP 5
# launch full transfer.
# note : running this command many times will update your destination directory with new/modified files since last transfer.
# This will not delete any files on your side that don't exist anymore on the datacentre side.

rsync $OPTS rsync://$LOGNAME@$SERVER/$MODULE/ $DESTINATION

# Tips -------------------------------------
# ask us for more complex usages, or read rsync manpage.
# http://rsync.samba.org/ftp/rsync/rsync.html
#

# listing remote contents (like 'ls -l') without transferring:

rsync $OPTS rsync://$LOGNAME@$SERVER/$MODULE/

# using shell-style wildcards to transfer only the files you want :

rsync $OPTS rsync://$LOGNAME@$SERVER/$MODULE/2012/KES0* $DESTINATION
rsync $OPTS rsync://$LOGNAME@$SERVER/$MODULE/2012/*/HHZ.D/*.??? $DESTINATION

# settings options to remove files in your destination directory that do not exist anymore on the datacentre side (be careful!):

export OPTS="$OPTS --delete"

Bugs, limitations

Les données sont livrées sous forme de fichiers journaliers au format miniSEED rangés en une arborescence SDS. Les fichiers journaliers sont la ganularité la plus fine qui puisse être obtenue par rsync.

Les accès sont founis temporairement et seront soumis à la bande passante disponible à Résif-DC.

Les métadonnées, les petits volumes de données (typiquement, moins de 100 Go), ou les fenêtres de temps inférieures à un jour doivent être téléchargées en utilisant les services WEB.

Rechercher