Glite

From Grid5000
Revision as of 08:45, 27 September 2011 by Sbadia (Talk | contribs)

(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to: navigation, search


Contents

gLite on Grid'5000

Déploiement du midleware gLite sur Grid'5000.

Cette collection de scripts fait partiellement partie du projet SimgLite.

Appel Interface Recherche en grilles - Grilles de production, Institut des Grilles du CNRS - Action Aladdin INRIA.

Préface

But

  • Déployer une infrastructure gLite automatiquement.
  • Utiliser Grid'5000 comme "banc d'essais" pour gLite afin:
    • D'être capable de recréer des expériences dans un environnement stable (sans perturbations).
    • Créer des conditions d'expériences expérimentales (simulation de crash...) qui ne peuvent pas être reproduit en production.
    • Avoir la possibilité de remplacer des éléments de l'infrastructure.
    • Supprimer la surcharge due aux jobs pilotes (jobs de tests).

Constat

  • Grid'5000 nous permet de faire tout cela.
  • 10 sites avec 1700 noeuds et environ 7000 cores.
  • Des machines reconfigurables par les utilisateurs, de l'isolation niveau réseau.

gLite

Structure déployée

La collection de scripts permet de déployer une infrastructure gLite comprenant:

  • Une VO avec son VOMS, et un utilisateur bidon avec ses certificats pré-configurés.
  • Plusieurs sites (entendre entités) comprenant:
    • Un BDII, annuaire des ressources du site.
    • Un CE, incluant un Batch (Torque + Maui).
    • Plusieurs WN répartis par clusters.
    • Une UI, permettant l'accès aux ressources.

Outils développés

Afin d'être le plus compatible avec la plate-forme déployé nous avons crée:

  • Une Image Scientific Linux 5.5, cette image fonctionne sur tout Grid'5000, elle est d'ailleurs enregistrés sur tous les sites (kaenv3 -p sl55-x64 -u sbadia).
  • Une collection de scripts ruby permettant de:
    • Réserver des noeuds en utilisant l'API Grid'5000.
    • Créer une description générique de la plate-forme gLite à déployer.
    • Un script principal:
      • Qui configure les services.
      • Crée une autorité de certification, et des certificats nécessaire au fonctionnement.

Afin d'accélérer le déploiement de la plate-forme, plusieurs méthodes ont étés testés, comme notamment le broadcast par peer-to-peer (bittorrent).

Finalement la méthode d'intégrer le cache dans les images a été retenue.

Workflow de déploiement

GliteWorkflow.png

Utilisation

cd gdeploy
rake clean
rake conf

Déplacement dans le répertoire gdeploy, clean de tous les fichiers temporaires. Et lancement de la configuration.

Résultats

Plusieurs campagnes de déploiement et tests.

  • Déploiement sur 926 noeuds (17 clusters, 9 sites).
  • Déploiement sur 597 noeuds (10 clusters, 6 sites) 170min.
  • Déploiement sur 10 noeuds (1 cluster, 1 site) 14min.

Prochaines étapes

  • Déployer plusieurs VO.
  • Déployer d'autres briques gLite.
    • Storage
      • SE
      • LFC
      • DPM
    • Monitoring
  • Optimisation.

Lexique

  • CE = Computing Element (Cluster).
  • SE = Stockage Element (Baie). Gsiftp transfert intégral, Rfio accès direct API Posix Like.
  • FTS = File Transfert Service.
  • WMS = Workload Management System (meta-scheduler). -> Condor-G.
  • BDII = Système d'Information (Publication des ressources et informations diverses (stats dynamiques).
  • VOMS = Virtual Organisation Membership Service.
  • LFC = File Catalog (non distribué).
  • VO = Virtual Organisation.
  • EGEE = Enabling Grids for E-sciencE.
  • UI = User Interface (pas GUI) mais client de la grille.
  • SRM = Storage Ressource Manager.
  • ROC = Regional Operation Center.
  • RC = Replica Catalog.
  • GOC = Grid Operations Center.
  • WN = Working Node.
  • LB = Logging & Brokekeeping.
  • JSS = Job Submission Service.
  • RB = Ressources Broker.
  • IS = Information System.

Feed back utilisateur g5k

Quelques soucis rencontrés

  • Limites sur les noeuds déployés (ulimit -a| grep openfile) limité à 1024. (#3859)
  • Pas vraiement de documentation sur la création d'une image from scratch.
Todo.png Todo

Créer on mettre à jour un tuto pour la création d'une image depuis zéro

  • Quelques soucis pour la compatibilité sur tous les clusters (soucis de drivers disques).
    • Certaines docs SITE:Hardware ne comportaient pas les drivers disque utilisés.
    • Une liste des drivers utilisés sur g5k (à jour) serait pas mal.
Todo.png Todo

Mettre à jour les pages hardware, ou récupérer les infos dans puppet (kadeploy)

  • Soucis de déploiements
    • Lyon (quasi impossible de déployer sur les deux clusters en même temps).
    • Toulouse violette assez long à rebooter.

Howto

Note.png Note

Ceci n'est qu'un brouillon, utilisé à titre personnel...

Drivers

Drivers disque utilisés sur Grid'5000:

  • mptspi, sata_svw, aacraid, ahci, ata, ata_piix, megaraid_sas, mptsas, sata_sil, mptspi, sata_nv
Personal tools
Namespaces

Variants
Actions
Public Portal
Users Portal
Admin portal
Wiki special pages
Toolbox