Modifié par Calvat, le 30 Jan 2012
HPSS: les questions à se poser avant utilisation
Ce document a pour objectif de vous aider à définir vos besoins en terme de stockage massif et d'utilisation d'HPSS au Centre de Calcul. Il s'articule comme un questionnaire. Des réponses aussi complètes et claires que possibles nous permettront de cerner au mieux les besoins de votre expérience et les moyens possibles d'y répondre. Une lecture préalable de ce
document vous y aidera. Vous y trouverez une explication de tous les termes utilisés dans ce questionnaire. Vous trouverez également sur notre site web, un ensemble d'articles traitant des problématiques de
stockage, de gestion et d'accès aux données, ainsi que leurs
transferts. En cas de problèmes ou de questions, n'hésitez pas à contacter le support aux utilisateurs du Centre de Calcul (user.support@cc.in2p3.fr).
Ensuite, le Centre de Calcul vous fournira un ensemble d'informations vous permettant d'écrire vos données dans HPSS et d'y accéder dans les meilleurs conditions. Par exemple, selon vos réponses aux questions suivantes, nous attribuerons une, ou même plusieures, classes de service ("Class Of Service") à votre expérience, ainsi que le nom d'une machine de service à utiliser dans rfio ou rfcp.
Nous vous conseillons d'utiliser l'option
-l hpss=1 à la commande qsub lors de la soumission de vos tâches (jobs) à SGE, notre système de batch, pour vos tâches accédant à HPSS. Cela nous permet d'optimiser l'utilisation des resources du Centre de Calcul. Par exemple, lors d'un arrêt planifié d'HPSS, nous pouvons alors bloquer vos jobs et leur éviter de se terminer en erreur; vous évitant par là de devoir gérer ces erreurs et de devoir resoumettre vos jobs. Voir notre
site web pour de plus amples informations.
1. Informations concernant l'origine des fichiers
- S'agit-il de données réelles (brutes), de données de simulation, d'analyse ou autres ?
- Ces fichiers proviennent-ils d'un site expérimental, d'un autre Centre de Calcul ou autre ?
- Ces fichiers sont-ils produits localement ?
- Ces données sont-elles reproductibles ? Dans quel cadre ?
- Existe-t-il une copie externe au Centre de Calcul ?
2. Informations concernant les caractéristiques de ces fichiers
- Taille des fichiers par classement (ou type): il s'agit de connaître les tailles de tous les fichiers destinés à être stockés dans HPSS. Le terme "classement (ou type)" sert à préciser s'il s'agit de données brutes, de simulation, d'analyse, ou autres.
- Taille total des fichiers: volumétrie pendant la durée de l'expérience, évolution de cette volumétrie au court de la durée de vie de l'expérience.
- Début de leur création selon le type ou classement.
- Fomat de ces fichiers par classement (ou type): format root, dicom, spécifique à l'expérience, ..., de type binaire, texte, ...
3. Informations concernant le cycle de vie de ces fichiers
- Durée de vie des fichiers: selon le type de données, la durée de vie des fichiers peut être différente. Par exemple, les fichiers existent uniquement entre deux séries de production, ou pour toute la durée de vie de l'expérience.
- Cycle de vie des fichiers: les fichiers sont-ils écrits une seule fois puis accédés ensuite uniquement en lecture ? Ou sont-ils modifiés par la suite et à quelle fréquence ?
4. Informations concernant le transfert de ces fichiers
Cet item n'est important que si les fichiers sont produits à l'extérieur puis transférés au Centre de Calcul ou, dans le cadre d'une production locale, s'ils sont ammenés à être transférés (en copie ou de manière définitive avec effacement local) ou diffusés à l'extérieur du Centre de Calcul.
- Volumétrie des transferts vers le Centre de Calcul.
- Techniques utilisées pour ces transferts vers le Centre de Calcul:
- Par réseaux avec bbftp, srb, srm, ...
- Par supports physiques comme les bandes, ...
- Autres.
- Débits attendus pour ces transferts vers le Centre de Calcul.
- Diffusion de ces données vers d'autres sites ou laboratoires:
- Est-elle prévue ?
- Par quels moyens (srb, bbftp, srm, bandes, web, ...) ?
- Avec quels débits attendus ?
5. Informations concernant l'accès local à ces fichiers
Type d'accès par type de fichier:
- Accès aléatoire ou séquentiel aux données contenues dans les fichiers ?
- Utilisation de systèmes intermédiares comme xrootd, dcache, srb pour accéder aux fichiers ?
- rfcp ou API: HPSS permet deux façons d'accéder aux données, soit par copie sur la zone scratch local (ou l'écriture dans HPSS à partir de cette zone-là), soit par rfio (la même interface que pour les fichiers de xtage). L'avantage de la première solution est son débit et son indépendance complète de vos programmes, celui de la deuxième est que vous pouvez traiter des fichiers très très gros sans encombrer le scratch (mais à faible débit; néanmoins, l'accès par NFS serait encore plus lent).
Type d'accès par type de traitement (production, analyse, ...):
- Nombre de tâches de traitement (jobs) s'exécutant en parallèle et accédant à ces fichiers ?
- Taille d'un évènement ?
- Durée de traitement d'un évènement ?
- Ordre: par exemple, si la lecture des données se fait dans un tout autre ordre que leur écriture, cela constitue une information importante pour nous.
- Scanning des données: ce type d'accès génère un important flux de données avec un temps de traitement très court. Nous conseillons alors l'utilisation de resources spécifiques lors de la soumission de ce type de traitement afin de ne pas saturer HPSS et de pénaliser les autres utilisateurs.
- Simulation: son déroulement ou profil par rapport aux données écrites et lues dans HPSS.
- Analyse: son déroulement ou profil par rapport aux données écrites et lues dans HPSS.
- Stockage des fichiers intermédiaires ou re-création: si la simulation ou l'analyse se fait par plusieurs étapes, il peut être judicieux de stocker les résultats intermédiaires dans HPSS, surtout s'il s'agit de gros fichiers et d'un temps CPU conséquent pour les créer.
6. Informations concernant la gestion de ces fichiers
- Double copie dans HPSS: HPSS offre la possibilité d'effectuer une double copie des fichiers lors de l'écriture (ou modification en écriture). Ce mécanisme n'est pas un moyen de sauvegarde mais protège uniquement contre la perte des données lors de la perte d'une bande ou cartouche. Il ne vous protège pas contre l'effacement par commande ou autres manipulations accidentelles ou même malveillantes. Par conséquence, nous déconseillons, sauf cas particulier, l'utilisation de cette option car elle peut devenir très coûteuse, à la fois en termes de budget et de temps de traitement.
- Copie externe: il n'existe pas de notion de sauvegarde dans HPSS. Si vous souhaitez y stocker des données uniques et non reproductibles, il nous semble indispensable que vous disposiez d'une copie ailleurs qu'au Centre de Calcul.
- Book keeping: HPSS ne dispose d'outil performant pour cela; ce n'est pas un système de fichiers. Pour afficher, par exemple, la liste des noms de fichiers qu'il contient, un accès par rfdir est possible mais fortement déconseillé. Une base de données extérieure ou un système de gestions de données comme srb nous semble donc indispensable pour garder la trace des fichiers et leur contenu.
7. Informations concernant les utilisateurs de ces fichiers