Alain FRANC, chercheur, et Yec’Han LAIZET, ingénieur de recherche, font partie de l’équipe de génétique et écologie des populations de l’INRA Pierroton.

Alain FRANC et Yec'Han LAIZET sur la canopée guyanaise
Alain FRANC et Yec’Han LAIZET sur la canopée guyanaise

 

Bonjour Alain, bonjour Yec’Han.
Tout d’abord, en quelques mots, qui êtes-vous ?

Alain FRANC
Je suis chercheur à l’INRA Pierroton, pour le département Ecologie des Forêts, Prairies et milieux Aquatiques (EFPA) au sein de l’unité Biogeco (Biodiversité, Gènes et Communautés).
Je m’intéresse depuis plus de 30 ans à la modélisation des écosystèmes forestiers sur une base mathématique. Ma réflexion se concentre actuellement sur l’écologie évolutive et la biodiversité, comprendre comment les interactions qui structurent une communauté de plantes sont le fruit de l’histoire et de l’évolution. Cette démarche scientifique nécessite l’usage de traitements de données et de modélisation.
Dans notre discipline, l’utilisation du calcul intensif est assez récente. En effet, il y a encore seulement 10 ans, la collecte des informations pour la modélisation en écologie des communautés était encore onéreuse et difficile. Aujourd’hui ce n’est plus le cas : ainsi, la quantité d’informations collectées pendant les trois ans d’une thèse à l’époque se fait actuellement en quelques semaines, traitement inclus ! Nous avons donc dû changer notre façon de travailler.

 

Yec’Han LAIZET
J’ai une formation de biologiste suivie à Bordeaux et Grenoble et, après ma thèse à l’Université Joseph Fourier, je suis parti faire un post-doctorat en Suisse à l’Institut Fédéral de Technologie de Zürich. J’ai toujours aimé l’informatique. Cela m’a amené à me familiariser avec le langage Python. Il faut dire que j’avais beaucoup de temps à y consacrer, pendant mes nombreux trajets en train entre la Suisse et la France.
J’ai eu l’occasion de continuer dans la voie de la bioinformatique par le biais d’un post-doctorat à l’INRA de Bordeaux. Mon sujet d’études était alors la réalisation d’une base de données des virus d’arbres. C’est le point de départ de ma collaboration avec Alain, Jean-Marc Frigerio et Philippe Chaumeil.
Après avoir travaillé pendant deux ans sur la plate-forme de génomique de l’INRA à Pierroton, notamment avec Alain, j’ai intégré le projet virtual_BiodiversityL@b, qui est un projet du Labex CEBA (Centre d’Études de la Biodiversité Amazonienne) dont le but est de développer des outils d’étude de diversité de la forêt amazonienne et les rendre disponibles à la communauté des biologistes.

 

Alain, pourquoi avez-vous choisi la Guyane comme zone d’étude privilégiée ?

Alain FRANC
Alain FRANC
Alain FRANC

La Guyane est une zone riche avec une biodiversité maximale, notamment en arbres. Il y a environ autant d’espèces sur quelques Ha de forêt guyanaise que sur toute l’Europe, soit entre 400 et 500 espèces.
Petite précision qui est toujours objet de débats infinis : un végétal est considéré comme un arbre à partir du moment où il fait plus de 10cm de diamètre à hauteur d’homme…
L’Amazonie n’est pas la seule zone de forte biodiversité sur Terre : le Queensland en Australie par exemple est aussi fort bien doté, ainsi que des îles ou archipels (comme la Micronésie). Mais l’atout de la Guyane repose surtout sur la connaissance des espèces accumulée par les écologues sur place depuis plusieurs décennies qui facilite fortement la connexion entre terrain et études. De plus, des infrastructures très performantes sont en place et nous permettent de travailler dans des conditions optimales.

 

Comment expliquez-vous la richesse de la biodiversité de la forêt amazonienne ?

Alain FRANC
Justement on ne l’explique pas : c’est LA question essentielle pour tous les chercheurs. Mais avant de trouver la réponse à cette question, il nous faut comprendre comment cet écosystème est organisé. C’est un des objets de nos recherches.
Pour ce faire, nous pratiquons des prélèvements que nous confrontons à des modèles. Les grandes évolutions dans les moyens d’acquisition des données ont réduit les temps nécessaires à la collecte d’échantillons, notamment en biologie moléculaire, et donc augmenté considérablement le volume de données à traiter. Nous sommes entrés dans le Big Data. D’où la nécessité comprise de tous de développer des nouvelles approches et de nouveaux outils pour faciliter à la fois le traitement et le partage des données sur la biodiversité amazonienne.
Le projet virtualBiodiversityL@b est dans ce type d’action, soutenu par le Labex CEBA dont l’unité Biogeco est partenaire. Nous travaillons dabns ce projet en partenariat avec plusieurs autres équipes de ce labex, notamment sur la diversité virale (IP Cayenne).

 

Quel a été votre cheminement jusqu’à la grille de calcul?

Alain FRANC
Historiquement, à l’opposé de sciences comme les mathématiques ou la physique pour qui la recherche ne peut se concevoir sans ressources informatiques, la biodiversité a été historiquement éloignée de toutes ces notions.
Mais, depuis que la diversité moléculaire des génomes peut être lue comme une empreinte de la diversité des organismes, et que les technologies de séquençage ont littéralement explosé en terme de débit (mais débit qui reste bien moindre que celui des grands instruments en astronomie par exemple) l’augmentation du volume des données à traiter ainsi que la réduction des temps d’acquisition de ces données nous obligent à délaisser le traitement en local affectionné par les biologistes.
J’ai découvert la grille lors d’une animation scientifique organisée par le Mésocentre de Calcul Intensif d’Aquitaine (MCIA) où j’ai assisté notamment à une présentation du Décrypthon.
Nous nous sommes mis à utiliser les infrastructures du MCIA, notamment les quelques 3000 cœurs et 40 Mégaflops du supercalculateur AVAKAS. Nous faisons maintenant partie de la VO MCIA.

 

Yec’Han LAIZET
Yec'Han LAIZET
Yec’Han LAIZET

Mais pour une partie du public auquel nous nous adressons, il y a un mur difficile à franchir qui est l’utilisation des outils par ligne de commande. Nous avons donc cherché une solution simple, accessible par quelques clics de souris à des utilisateurs ne sachant pas coder. Nous avons choisi l’outil « Galaxy » qui permet un partage simplifié des outils et des données scientifiques. Nous avons ajouté des outils d’analyse de la biodiversité.
Comme ces outils requièrent des ressources de calcul importantes, nous sommes intéressés à pouvoir adosser notre laboratoire virtuel à des ressources informatiques importantes.

 
 
 
 
 
 
 

Quel ressenti avez-vous de l’utilisation de l’infrastructure EGI, France Grilles ?

Alain FRANC
Mon premier contact avec la grille s’est fait par une application très basique de type « Hello world ! » avec l’intergiciel gLite. Je me suis rendu compte que l’utilisation de moyens de calcul intensif n’est pas innée et nécessite un investissement, une formation.

 

Yec’Han LAIZET
C’est là que France Grilles est entré en jeu. Jean-Marc Frigerio et moi avons, tous les deux, suivi la dernière formation organisée à Clermont-Ferrand, Jean-Marc avait déjà suivi une session précédente de formation sur DIRAC.
Sans la formation, j’aurai probablement mis plus de temps à être opérationnel du point de vue des certificats de connexion et que dès notre retour, je pouvais d’ores et déjà travailler sur la grille.

 

Comment voyez-vous l’avenir ?

Alain FRANC
Nous souhaitons continuer le rapprochement entre Calcul, Ecologie et évolution. Nous souhaiterions arriver à rendre naturelle la collaboration entre chercheurs et plateforme bioinformatique, systématiser l’accès au stockage sur l’infrastructure nationale et l’utilisation des ressources de calcul intensif.
En effet, avec l’augmentation des quantités de données à traiter, nous avons besoin d’un centre de calcul de niveau national. Mais il n’existe pas encore de liaison forte entre notre domaine d’étude et les réseaux de calcul, comme c’est déjà le cas pour les mathématiques, la physique ou la chimie. La santé et la bioinformatique ont déjà établi ce rapprochement aussi. C’est à nous de le faire maintenant, car c’est un enjeu réel, afin d’établir une culture commune au calcul et à la biodiversité.
Le coté démocratique, simple d’utilisation une fois connecté fait de la grille, du cloud, des solutions pleines d’avenir dans notre domaine, probablement aussi efficace que la solution par appel d’offre des grands centres nationaux.
De plus les algorithmes de biodiversité sont distribuables, et donc idéaux pour une utilisation sur l’infrastructure souple grille/cloud.
L’utilisation idéale serait de mettre au point les codes en local pour validation rapide sur un jeu réduit de données. Puis une fois le code au point, lancement grandeur nature, avec le jeu complet de données à traiter, sur l’infrastructure nationale.
Et bien sûr, l’étape suivante, c’est le Cloud.
Nous sommes partenaires d’E-Biothon, une plateforme Cloud expérimentale déployée par le CNRS, IBM, l’INRIA, l’Institut français de Bioinformatique et la start-up innovante SysFera. C’est un avantage de faire partie des « cobayes » de l’utilisation d’E-Biothon car nous avons un soutien de IBM, du CNRS et de l’INRIA.

 

Yec’Han LAIZET
Techniquement c’est différent de nos outils habituels, nous n’avons pas la main ni les compétences pour une utilisation directe. Nous devons adapter nos outils développés pour Galaxy à E-Biothon. Nous avons aussi une opportunité de passage au cloud avec l’infrastructure EGI.

 

Merci à tous les deux pour le temps que vous nous avez accordé, et bonne continuation.

(Propos recueillis par Silvia GERVOIS)

Haut de page