Glite
From Grid5000
Contents |
gLite on Grid'5000
Déploiement du midleware gLite sur Grid'5000.
Cette collection de scripts fait partiellement partie du projet SimgLite.
Appel Interface Recherche en grilles - Grilles de production, Institut des Grilles du CNRS - Action Aladdin INRIA.
Préface
But
- Déployer une infrastructure gLite automatiquement.
- Utiliser Grid'5000 comme "banc d'essais" pour gLite afin:
- D'être capable de recréer des expériences dans un environnement stable (sans perturbations).
- Créer des conditions d'expériences expérimentales (simulation de crash...) qui ne peuvent pas être reproduit en production.
- Avoir la possibilité de remplacer des éléments de l'infrastructure.
- Supprimer la surcharge due aux jobs pilotes (jobs de tests).
Constat
- Grid'5000 nous permet de faire tout cela.
- 10 sites avec 1700 noeuds et environ 7000 cores.
- Des machines reconfigurables par les utilisateurs, de l'isolation niveau réseau.
gLite
Structure déployée
La collection de scripts permet de déployer une infrastructure gLite comprenant:
- Une VO avec son VOMS, et un utilisateur bidon avec ses certificats pré-configurés.
- Plusieurs sites (entendre entités) comprenant:
- Un BDII, annuaire des ressources du site.
- Un CE, incluant un Batch (Torque + Maui).
- Plusieurs WN répartis par clusters.
- Une UI, permettant l'accès aux ressources.
Outils développés
Afin d'être le plus compatible avec la plate-forme déployé nous avons crée:
- Une Image Scientific Linux 5.5, cette image fonctionne sur tout Grid'5000, elle est d'ailleurs enregistrés sur tous les sites (kaenv3 -p sl55-x64 -u sbadia).
- Une collection de scripts ruby permettant de:
- Réserver des noeuds en utilisant l'API Grid'5000.
- Créer une description générique de la plate-forme gLite à déployer.
- Un script principal:
- Qui configure les services.
- Crée une autorité de certification, et des certificats nécessaire au fonctionnement.
Afin d'accélérer le déploiement de la plate-forme, plusieurs méthodes ont étés testés, comme notamment le broadcast par peer-to-peer (bittorrent).
Finalement la méthode d'intégrer le cache dans les images a été retenue.
Workflow de déploiement
Utilisation
cd gdeploy rake clean rake conf
Déplacement dans le répertoire gdeploy, clean de tous les fichiers temporaires. Et lancement de la configuration.
Résultats
Plusieurs campagnes de déploiement et tests.
- Déploiement sur 926 noeuds (17 clusters, 9 sites).
- Déploiement sur 597 noeuds (10 clusters, 6 sites) 170min.
- Déploiement sur 10 noeuds (1 cluster, 1 site) 14min.
Prochaines étapes
- Déployer plusieurs VO.
- Déployer d'autres briques gLite.
- Storage
- SE
- LFC
- DPM
- Monitoring
- Storage
- Optimisation.
Lexique
- CE = Computing Element (Cluster).
- SE = Stockage Element (Baie). Gsiftp transfert intégral, Rfio accès direct API Posix Like.
- FTS = File Transfert Service.
- WMS = Workload Management System (meta-scheduler). -> Condor-G.
- BDII = Système d'Information (Publication des ressources et informations diverses (stats dynamiques).
- VOMS = Virtual Organisation Membership Service.
- LFC = File Catalog (non distribué).
- VO = Virtual Organisation.
- EGEE = Enabling Grids for E-sciencE.
- UI = User Interface (pas GUI) mais client de la grille.
- SRM = Storage Ressource Manager.
- ROC = Regional Operation Center.
- RC = Replica Catalog.
- GOC = Grid Operations Center.
- WN = Working Node.
- LB = Logging & Brokekeeping.
- JSS = Job Submission Service.
- RB = Ressources Broker.
- IS = Information System.
Feed back utilisateur g5k
Quelques soucis rencontrés
- Limites sur les noeuds déployés (ulimit -a| grep openfile) limité à 1024. (#3859)
- Pas vraiement de documentation sur la création d'une image from scratch.
- Tuto pour freebsd de Pascal ou Lucas (FreeBSD in Rennes et FreeBSD)
- Tuto pour sl4 de Bruno (Environment from scratch)
- Quelques soucis pour la compatibilité sur tous les clusters (soucis de drivers disques).
- Certaines docs SITE:Hardware ne comportaient pas les drivers disque utilisés.
- Une liste des drivers utilisés sur g5k (à jour) serait pas mal.
- Soucis de déploiements
- Lyon (quasi impossible de déployer sur les deux clusters en même temps).
- Toulouse violette assez long à rebooter.
Howto
Drivers
Drivers disque utilisés sur Grid'5000:
- mptspi, sata_svw, aacraid, ahci, ata, ata_piix, megaraid_sas, mptsas, sata_sil, mptspi, sata_nv
