Cécile GERMAIN, Professeur classe exceptionnelle, et Julien NAUROY, ingénieur de recherche, ont collaboré au sein du Laboratoire de Recherche en Informatique.

Equipe du Grid Observatory
Equipe du Grid Observatory

 

Bonjour Cécile, bonjour Julien. Pouvez-vous vous présenter en quelques mots ?

Cécile GERMAIN
Je suis professeur d’informatique à l’Université Paris-Sud, et je travaille en collaboration avec le Laboratoire de l’Accélérateur Linéaire. J’ai participé au projet EGEE II dans le cadre de problèmes d’allocations de ressources pour les tâches interactives. Je suis convaincue que le système de Grille/cloud doit être totalement transparent pour l’utilisateur.

Cécile GERMAIN
Cécile GERMAIN
C’est pendant le projet EGEE II que j’ai rencontré Julien qui travaillait sur un projet d’application pour l’imagerie médicale dans le cadre de sa thèse. En effet, les demandes de ressources par les logiciels de traitement des données médicales sont très lourdes.
Au départ l’application a été développée dans le cadre de la thèse de Julien, qui n’avait aucun lien avec le projet EGEE. Mais elle nous a permis de remporter un concours interne EGEE pour la présentation. Par la suite, et dans le cadre d’EGEE cette fois-ci, un groupe de travail a été créé sur ces problématiques d’interactivité.
Ensuite, mes centres d’intérêt se sont orientés vers les problématiques de modélisation des systèmes distribués.

 

Julien NAUROY
Julien NAUROY
Julien NAUROY
Pour ma part, je suis actuellement responsable de l’offre informatique scientifique de l’Université Paris-Sud. Quand je travaillais avec Cécile, j’étais ingénieur sur l’Observatoire de la Grille. J’ai fait mes études ici à Paris-Sud où j’ai soutenu une thèse en imagerie médicale. J’ai ensuite collaboré avec Cécile pendant 4 ans en tant qu’ingénieur sur l’Observatoire de la Grille.

 

Vous avez donc collaboré sur l’Observatoire de la Grille, pouvez-vous nous en dire plus ?

Cécile GERMAIN

Le « Grid Observatory » [1] part de l’idée suivante : les sciences du vivant, les sciences dures ont leur dépôt de données mais, pour l’étude des systèmes distribués, de tels dépôts n’existaient pas il y a 10 ans. Or l’analyse des systèmes répartis à grande échelle nécessite de faire une modélisation à partir des données, avec comme perspective scientifique et opérationnelle l’Autonomic Computing. C’est une conviction profonde qui m’a amené à lancer le projet d’Observatoire de la Grille.
Comme EGEE était un système fortement instrumenté qui notait tout, on avait la possibilité de se positionner au–dessus de cette instrumentation pour récupérer les traces. Le travail difficile n’était pas d’inventer les traces mais le problème était de faire une acquisition des traces aussi exhaustive que possible. C’était un véritable challenge et cela a été fait progressivement. Nous avons dû faire nos preuves mais quand nous avons démontré notre capacité à avoir des résultats, nous avons trouvé des financements et du soutien.
Nous avons aujourd’hui un service qui tourne en production avec une qualité de service. Rien n’aurait été possible sans une collaboration étroite avec le Laboratoire de l’Accélérateur Linéaire, notamment avec Cal Loomis, Michel Jouvin et toute l’équipe du service informatique du LAL qui ont pris en charge le système de collecte.

 

Julien NAUROY
La collaboration avec le LAL continue pour le maintien du produit. En 2008-2009, il était moins bien vu de construire un dépôt de traces. Nous avons fait un travail innovant en créant l’observatoire.

 

Cécile GERMAIN
Il n’y avait pas la conscience du fait que l’informatique était aussi une science expérimentale.

 

Julien NAUROY
Le Grid Observatory nécessitait, et nécessite toujours des connaissances complexes et donc un travail d’ingénieurs en informatique à temps plein.

 

Cécile GERMAIN
J’ai pour doctrine que même avec des moyens limités, nous devons produire un travail de qualité. Aussi l’observatoire fourni des traces aussi exhaustives que possible en utilisant des logiciels standards. Les données doivent être à l’origine des théories. L’observatoire a permis de répondre à de nombreux appels d’offres, notamment de l’INRIA. L’activité a été financée partiellement par EGI mais nous avons aussi trouvé de nombreux financements complémentaires.

 

Pouvez-vous nous donner quelques chiffres clés de l’observatoire ?

Cécile GERMAIN
L’observatoire se situe au-dessus des traces de gLite, nous collectons des données sur l’ensemble de la grille EGI soit des dizaines de sites.

 

Julien NAUROY
Depuis fin 2008, l’observatoire collecte mensuellement environ 500 GOctets de données brutes sur les systèmes d’information d’EGI. Ces données sont stockées et traitées sur un serveur et ensuite envoyées sur les systèmes de stockage de la grille pour les pérenniser. Elles sont archivées au CC-IN2P3. Un portail fournit un catalogue des données et les services pour y accéder à travers une interface web. Il n’y a pas besoin d’être un utilisateur de la grille et d’être titulaire d’un certificat pour accéder à ces traces.
 
Julien NAUROY
Julien NAUROY

 

Cécile GERMAIN
Les données de l’observatoire sont utilisées par des chercheurs du monde entier. Elles ont donné lieu à plusieurs thèses en France et à l’étranger et à une cinquantaine d’articles dans les journaux et conférences internationales.

 

Vous vous intéressez aussi au Green Computing. Pouvez-vous nous expliquer ce que c’est ?

Cécile GERMAIN
Nous avons développé un système d’instrumentation particulier dans la salle d’informatique du LAL pour caractériser l’activité informatique de chaque nœud de calcul pour l’étude des problématiques de green computing. L’enjeu est de réduire la consommation électrique et la production de chaleur des machines, à qualité de service égale. Les machines disposent de capteurs et le but est d’accéder à ces capteurs et de mettre en place des systèmes d’acquisition des données.

 

Julien NAUROY
Dans le Green Computing Observatory, il y a 7 sources de données mises en commun à corréler. Par exemple, on peut accéder d’une part à la consommation électrique d’un processeur et d’autre part à la liste des logiciels en cours d’exécution mais le lien entre les deux n’est pas direct. Il a fallu définir une organisation conceptuelle des données qui permette de mettre en relation les informations pertinentes.

 

Cécile GERMAIN

L’Observatoire du Green Computing [2] est opérationnel depuis 3 ans et nous avons observé des phénomènes intéressants comme par exemple la réponse des machines en cas de panne de la climatisation. Il y a une augmentation de la température de la salle et en conséquence une accélération de la rotation des ventilateurs sur les machines qui provoque une surconsommation et l’arrêt électrique. Ces données nous ont aussi permis de mieux comprendre les différences entre les data center d’une entreprise comme Google et un data center académique. Dans le monde académique, il n’y a que peu de marge de manœuvre parce que le système est proche de la saturation pour des raisons essentiellement sociologiques. Il n’est pas acceptable que les machines soient occupées seulement à 40% alors que c’est la situation typique dans une entreprise comme Google.

 

Julien NAUROY
Nous arrivons à déterminer, par l’analyse des données collectées, des cycles jour-nuit, ou la période de l’année.
Pour l’anecdote ; nous nous sommes rendus compte que la météo peut aussi jouer un rôle dans la consommation électrique. Nous avons eu une surconsommation pendant le mois d’août qui s’est avérée être due à l’oubli d’une fenêtre ouverte dans la salle pendant la journée.

 

Comment voyez-vous l’avenir ?

Cécile GERMAIN

L’Observatoire de la Grille et le Green Computing Observatory vont continuer de collecter des données et de les mettre à disposition.
Nos centres d’intérêt se sont naturellement orientés vers le Cloud Computing. Nous avons commencé de collecter des données sur le cloud StratusLab du laboratoire. Nous collaborons avec la société BULL et des éditeurs de bases de données pour étudier le respect d’une norme (SPARQL 1.1) pour l’échange des données ouvertes [3]. Les données de l’observatoire sont utilisées comme jeu de test dans ce projet.
Les données de l’observatoire sont en effet caractéristiques de bases de données scientifiques hétérogènes avec des informations temporelles. Le cœur de la démarche de mise à disposition de données ouvertes et interopérables (« open data ») est le respect de ces normes.
Nous participons à la réponse à un appel d’offre du programme « Nouvelle France Industrielle » qui a débouché sur le projet LiveGrid. Dans ce cadre nous contribuerons à la collecte et l’analyse des données de consommation électrique résultant de l’instrumentation de bâtiments du plateau de Saclay afin d’optimiser l’utilisation des installations.

 

Julien NAUROY
Au niveau de Grid Observatory, n’étant maintenant plus officiellement dans l’équipe, je continue tout de même d’assurer la maintenance « du bout des doigts ». Le challenge est donc de pérenniser le système, notamment le redémarrage après une panne et l’enregistrement et l’étude de l’historique des pannes pour son optimisation.

 

Merci beaucoup pour cet échange très riche. Julien, nous vous souhaitons de réussir aussi bien dans vos nouvelles fonctions que dans les anciennes.

(Propos recueillis par Silvia GERVOIS)


[1] Cécile Germain-Renaud, Alain Cady, Philippe Gauron, Michel Jouvin, Charles Loomis, Janusz Martyniak, Julien Nauroy, Guillaume Philippon, and Michèle Sebag. The Grid Observatory. IEEE Computer Society Press. IEEE/ACM International Symposium on Cluster, Cloud, and Grid Computing, United States. 2011

Retour

[2] Cécile Germain-Renaud, Frederic Fürst, Thibaut Jacob, Michel Jouvin, Gilles Kassel, Julien Nauroy, Guillaume Philippon. The Green Computing Observatory: a data curation approach for green IT. Proceedings of Science 059, 2012

Retour

[3] Karima Rafes, Julien Nauroy, Cécile Germain. TFT, Tests For Triplestores. Semantic Web Challenge, part of the International Semantic Web Conference, Oct 2014, Riva Del Garda

Retour

Haut de page