CC-IN2P3


Partenaires








Rechercher

Sur ce site

Sur le Web du CNRS

Centre de Calcul IN2P3/CNRS
21 Avenue Pierre de Coubertin
CS70202
69627 VILLEURBANNE cedex
Tél. : +33 (0) 4 78 93 08 80
Fax : +33 (0) 4 72 69 41 70


Accueil du site > Le CC-IN2P3 > Domaines d’expertise et de services > Stockage

Stockage

Maj : 27 juillet 2009

Au c ?ur des systèmes informatiques, le stockage est l’une des problématiques majeures du CC-IN2P3. Quel serait en effet l’intérêt de produire d’énormes quantités de données sans pouvoir les stocker et les retrouver rapidement pour mieux les comparer ou les étudier ?

Dans le domaine de la physique subatomique, les expériences requièrent l’analyse statistique de milliards d’interactions entre particules. Les données à analyser peuvent soit provenir directement d’un détecteur (ce sont les données réelles), soit provenir de simulations (on parle alors de données simulées). La simulation comprend la simulation de la réponse du détecteur à des événements (collisions) de physique, eux-mêmes simulés. La confrontation entre les données réelles et simulées permet de valider ou d’invalider les théories.

L’ensemble de ces données, qu’elles soient réelles ou simulées, doit pouvoir transiter entre différents sites de recherche et être stocké au CC-IN2P3 pour analyse par les chercheurs, qu’ils soient basés dans un laboratoire de l’IN2P3, dans une autre unité du CNRS ou à l’étranger (CERN, SLAC, etc.).

Pour répondre à cette problématique, le CC-IN2P3 a donc développé une expertise en matière de stockage, d’archivage et de transport de grandes quantités de données afin de prévoir, de coordonner les besoins et de présenter une réponse cohérente aux demandes des utilisateurs.

Les données collectées lors des expériences peuvent être stockées soit sur disques, soit sur cartouches installées dans la librairie automatisée du CC-IN2P3. Cette librairie est constituée de six silos animés par des robots et est capable de gérer en ligne quelque 36 000 cartouches, soit un potentiel d’environ 7,2 peta-octets.

Pour mener à bien sa mission, le CC-IN2P3 utilise également des outils logiciels spécifiques, dont certains ont été développés par les ingénieurs du centre. Le transport informatique des données, par le biais des réseaux à très haut débit, a par exemple été rendu possible grâce à un logiciel appelé BBFTP(Files Transfer Protocole, à l’origine créé pour l’expérience BaBar).

Parmi les autres logiciels utilisés, le système de fichiers partagé AFS (pour Andrew File System), utilisé sous Unix, fournit aux utilisateurs du CC-IN2P3 une visibilité globale des fichiers sans qu’ils aient à se soucier du lieu où ils sont géographiquement implantés (CERN, IN2P3, SLAC, etc.).

Le logiciel HPSS (High-Performance Storage System) fait également partie des outils majeurs utilisés par le CC-IN2P3. HPSS est un système qui permet le stockage hiérarchique de gros volumes de données, avec un accès aux fichiers par nom. Un système hiérarchique est un système qui gère des fichiers pouvant résider sur plusieurs supports (disque, bande magnétique) répartis en niveaux hiérarchisés. Les utilisateurs peuvent ainsi accéder rapidement à leurs données en milieu distribué et hétérogène sans connaître le media de stockage.

L’espace NFS, mis à disposition des utilisateurs du CC-IN2P3, permet quant à lui un partage de fichiers au niveau local. Il constitue une solution de stockage temporaire, destiné à des fichiers spécifiques (par leur taille, leur résidence ou encore leur mode d’accès) qui ne peuvent pas être stockés directement dans HPSS.

Du point de vue de l’utilisateur, et afin de simplifier au maximum l’accès aux données à des non spécialistes de l’informatique, ces outils peuvent ensuite être déclinés avec de nombreuses interfaces plus ou moins complexes : Objectivity, Xrootd, SAM, SRB, RFIO, GRIDFTP, BBFTP, etc. L’introduction des technologies de grid computing, dans le cadre du projet EGEE, définit en particulier de nouvelles interfaces de stockage (SRM) dont l’implémentation est en cours.

Enfin, le CC-IN2P3 met également ses ressources informatiques à disposition d’autres unités, notamment pour la sauvegarde et l’archivage de fichiers de clients hébergés au centre (comme la Direction des Services Informatiques du CNRS) ou distants (dont plusieurs laboratoires de biologie ou encore les Services Centraux de l’IN2P3).