Christine CARAPITO, chargée de recherche, et Alexandre BUREL, ingénieur d’études, font partie de l’équipe du Laboratoire de Spectrométrie de Masse BioOrganique (LSMBO) de l’IPHC à Strasbourg.

Patrick Guterl, Christine Carapito et Alexandre Burel
Patrick Guterl, Christine Carapito et Alexandre Burel

 

Bonjour Christine, bonjour Alex.
Tout d’abord, en quelques mots, qui êtes-vous ?

Christine CARAPITO
J’ai un diplôme d’ingénieur en biotechnologies suivi d’un doctorat en Chimie analytique que j’ai obtenu en 2006 à l’université de Strasbourg.

Depuis 2010 je suis chargée de recherche au CNRS et travaille au Laboratoire de Spectrométrie de Masse BioOrganique (LSMBO) de l’Institut Pluridisciplinaire Hubert CURIEN (IPHC), sous la direction d’Alain Van Dorsselaer.

 

Alexandre BUREL
Pour ma part, je suis ingénieur d’études en bioinformatique. Je suis arrivé dans le monde de la recherche un peu par hasard, un heureux hasard !

 

Pouvez-vous nous en dire plus sur vos sujets d’étude ?

Christine CARAPITO
Nous travaillons à la caractérisation de protéines, qui sont les « ouvriers » du vivant et qui en remplissent la plupart des fonctions. Nous sommes spécialisés en analyse protéomique, une de ces sciences –omiques avec la génomique, la transcriptomique, la métabolomique, … génératrices de Big Data.

Nous utilisons la spectrométrie de masse pour caractériser ces protéines. Cette technique de chimie analytique permettant la mesure de masses très précises est utilisée depuis les années 80 pour l’analyse de molécules biologiques telles que des protéines.

Grâce à ces mesures de masses très précises, nous pouvons identifier et quantifier les protéines présentes dans des mélanges très complexes (tel que le protéome plasmatique par exemple). L’identification des protéines se fait par de puissants algorithmes qui comparent les longues listes de masses expérimentales mesurées à l’ensemble des masses théoriques calculées à partir d’une banque de données de référence (par exemple le protéome humain prédit à partir du séquençage du génome humain). Avant l’injection dans le spectromètre de masse, nous digérons les protéines en « morceaux » de quelques dizaines d’acides aminés, appelés peptides, par des enzymes de digestion telles que la trypsine. Ces peptides sont ensuite fragmentés dans le spectromètre de masse pour accéder à leur séquence en acides aminés. Nous pouvons par cette méthode identifier plusieurs milliers de protéines à partir des données acquises en quelques heures sur nos spectromètres de masse.

On peut citer en exemple une étude comparative qui consisterait à comparer l’ensemble des protéines exprimées par des cellules saines à celles exprimées par des cellules malades. A partir de cette comparaison, nous tentons de mettre en évidence des protéines différentiellement exprimées dans les cellules malades et qui seraient donc des « potentiels responsables » de la maladie.

 

Qu’est-ce qui vous a amené à utiliser la grille et l’infrastructure France Grille en particulier ?

Christine CARAPITO
Une cellule humaine exprime couramment entre 5 et 6000 protéines. L’analyse de ces protéines demande entre 5h et 10h de mesures sur un spectromètre de masse avec l’acquisition de plusieurs dizaines de milliers de spectres de fragmentation de peptides. Ces 5h d’acquisitions génèrent jusqu’à 10Go de données brutes qui doivent ensuite être traitées et transformées en fichiers interprétables par les algorithmes d’identification et de quantification. Pour l’identification, les algorithmes comparent les données expérimentales à des banques de séquences protéiques de référence, qui peuvent elles aussi être volumineuses (par exemple : la banque de référence du protéome humain contient environ 20000 protéines, 40000 si on ajoute des variants et fait 30Mo).

Nos spectromètres de masse vont de plus en plus vite, sont de plus en plus sensibles et génèrent des données toujours plus volumineuses. Nous sommes une équipe de 35 personnes, nous avons 10 spectromètres de masse qui tournent 24h/24, 7j/7.

Nous en sommes arrivés à saturer nos ressources de calcul pour interpréter ces données et de nouveaux algorithmes, plus performants, mais souvent encore plus gourmands en ressources (notamment pour la quantification) sont également à l’origine de cette saturation.

Notre Institut Pluridisciplinaire Hubert CURIEN a été créé à 2006 à l’initiative de Daniel Huss (physicien), Alain Van Dorsselaer (chimiste) et Yvon Le Maho (biologiste). Trois laboratoires de cultures scientifiques différentes (eco-physiologie, chimie et physique subatomique) se sont regroupés en un institut unique aujourd’hui dirigé par Christelle Roy. En 2008, des échanges entre Daniel Huss et Alain Van Dorsselaer nous ont conduits à nous rapprocher des ingénieurs administrant la grille de calcul de l’institut, Jérôme Pansanel et Yannick Patois. Un projet transverse de l’IPHC avec pour but l’alliance de la grille et de l’analyse protéomique a été officialisé début 2009.

Ce projet a permis le développement d’une suite logicielle d’interprétation des données de protéomique intégrant des algorithmes open source pour lesquels nous envoyons nos données avec les banques de séquences de référence correspondantes sur la grille. Notre portail d’accès à la grille simplifié s’appelle « Mass Spectrometry Data Analysis (MSDA) » et est accessible en ligne.

Les données que nous envoyons sont volumineuses et les banques de référence attachées peuvent l’être également : quand on travaille sur des génomes d’espèces exotiques dont le génome n’est pas encore séquencé, nous devons utiliser des banques de séquences de référence larges. Par exemple, quand nous travaillons sur des échantillons d’ours, nous utilisons tous les génomes de mammifères séquencés à l’heure actuelle, soit presque 1Go de données pour cette banque de référence seule. Si nous utilisons une banque de référence incluant l’ensemble des Eucaryotes, sa taille atteint plus de 10Go.

Pour optimiser les temps de traitement, nous envoyons nos spectres de fragmentation par paquets sur la grille. Un des travaux d’Alexandre a été de trouver la taille optimale des paquets envoyés pour gagner en temps de transfert et de traitement.

 

Alexandre BUREL
L’utilisation de la grille nous a permis un gain de temps considérable. Ce qui nous prenait 3 jours en local ne nous prend plus qu’une heure. Cela nous aide grandement dans la régularisation et le partage des ressources pour un laboratoire de 35 personnes.

Pour le mode opératoire, nous procédons en deux étapes : d’abord le transfert de la banque de référence puis l’envoi des paquets à analyser.

Dès 2009 nous avons étudié la possibilité d’envoyer nos traitements sur la grille, utilisant initialement le nœud de l’IPHC exclusivement. Nous avons rapidement migré sur la grille complète, notamment pour une utilisation multi-utilisateurs, et sommes passés en production en 2010-2011.

Pour accéder à la grille, nous faisons partie de la VO BioMed. Les seuls problèmes ponctuels que nous avons rencontrés ont été occasionnés par des pannes ou des maintenances, aucune limitation propre de la VO ou de la grille.

Nous avons tout d’abord utilisé l’outil JJS mais nos demandes spécifiques nous ont amenés à développer notre propre outil, basé sur JSAGA (outil de gestion des jobs) appelé Vigrid. Ce choix a notamment été privilégié car l’interprétation des données protéomiques présente des particularités. En effet, nous avons besoin d’un temps très court d’analyse mais sur une quantité de données très importante.

De plus, notre outil intègre un script de découpage des données utilisateurs avant l’envoi sur la grille, découpage que nous avons dû optimiser.

 

Christine CARAPITO
La suite logicielle MSDA a fait l’objet d’une publication début 2014 que vous pouvez trouver ici.

Vous pouvez aussi visionner notre présentation effectuée lors des rencontres scientifiques de France Grille.

Ces outils permettent, en automatique, de générer la banque de référence puis de découper les spectres de fragmentation en paquets et enfin de les envoyer sur la grille pour l’analyse.

 

Comment avez-vous vécu ce passage à la grille ?
Vos premières impressions ?

Christine CARAPITO
Les premiers tests ont été déstabilisants. Nous envoyions 10000 spectres sur la grille et 2 ou 3 ne revenaient pas. Lorsque nous en avons parlé aux personnes de la grille, ils nous ont dit que nos résultats étaient très bons. 2 ou 3‰o de perte c’est un super résultat… Mais pour nous ce résultat n’était pas acceptable car la différence, le biomarqueur d’intérêt par exemple, que nous cherchons peut se trouver dans l’unique résultat qui ne revient pas. Nous avions besoin d’un mode sans échec. Vigrid s’assure que 100% des jobs reviennent interprétés.

 

Alexandre BUREL
Suivant les paramètres d’analyse, nous envoyons des paquets de 1000 et 5000 spectres par job avec 5 à 10 minutes de calcul par job. Cela sans compter le temps de chargement de la banque de référence. Nous avons beaucoup tâtonné pour arriver à cette taille optimale.
Christine CARAPITO
Comme nous disions plus tôt, nous sommes une équipe de 35 personnes qui utilise la VO BioMed de façon quotidienne. Notre portail est ouvert à une cinquantaine d’utilisateurs extérieurs autorisés qui ne font pas toujours de calcul sur la grille mais c’est une possibilité qui leur est offerte. Nous étudions donc la mise en place d’un certificat robot pour le labo et non plus individuel comme c’est le cas actuellement.

 

Comment avez-vous appris à vous servir de la grille ?

Alexandre BUREL
Je me suis formé à l’utilisation de GLite, JJS et au développement pour la grille avec Patrick GUTERL en 2010 dans les locaux du CC-IN2P3, à Villeurbanne.

Naturellement, nous avons utilisé JJS au début mais nous sommes ensuite passés à une solution développée en interne.
Au démarrage, en 2009-2010, la grille était moins fiable qu’elle ne l’a été par la suite, notamment à partir de 2011. C’est pour cela que nous avons travaillé au développement d’un outil de vérification des jobs non revenus pour automatiser leur renvoi au calcul en cas de retour en échec.

A partir de 2011 donc, nous avons constaté l’arrivée d’une cohérence dans l’organisation du travail sur la grille grâce aux équipes comme France Grilles. Le démarrage du LHC à cette période a certainement été un tournant dans l’organisation du calcul intensif avec une exigence en qualité de service accrue.

C’est aussi à ce moment-là que nous sommes passés en production et nos compétences acquises au cours du projet nous ont permis de devenir plus efficaces.

 

D’autres labos du domaine ont des expériences de calcul de grille ?

Christine CARAPITO
Quand nous nous sommes intéressés à cette solution, nous avons commencé par faire de la bibliographie et cherché des références de cas d’utilisations de ressources de calcul distribué comme la grille pour l’interprétation de données de protéomiques, mais nous avons trouvé peu de travaux dans ce sens. Une équipe suisse avait publié des travaux utilisant la grille (projet SwissPIT) et quelques papiers décrivent l’utilisation de cloud (dont le cloud Amazon) pour l’interprétation de données protéomiques.

 

Question essentielle, comment voyez-vous l’avenir ?

Christine CARAPITO
Les biologistes de notre institut travaillent sur des organismes exotiques et tentent de trouver, dans la biodiversité animale, des réponses pour mieux comprendre l’homme. Nous avons donc de nombreux sujets d’étude portant sur des organismes dont les génomes ne sont pas encore séquencés et pour lesquels nous n’avons donc pas de banque de référence.

Pour répondre à ces problématiques, nous utilisons une approche d’interprétation des données particulières : le séquençage de novo. Ce procédé d’interprétation des données consiste à déterminer des morceaux de séquences en acides aminés par interprétation directe des spectres de fragmentation, sans comparaison avec des banques de référence. Les algorithmes d’interprétation de novo sont encore bien plus gourmands en ressources que les algorithmes de comparaisons de masses. Nous avons, pour cela, développé un pipeline de séquençage de novo automatisé sur la grille, en place depuis maintenant 2 mois.

L’avenir sera donc de pérenniser ces solutions, d’intégrer de nouvelles approches algorithmiques en cours de développement par la communauté grandissante de bioinformaticiens/mathématiciens travaillant sur les données de protéomique et des sciences –omiques en général, et de partager notre expérience. Actuellement nous interprétons au mieux 30 à 40% des spectres de fragmentation acquis avec les algorithmes existants, il reste donc une importante place pour le développement de nouveaux algorithmes, que ce soit pour l’identification, la caractérisation ou la quantification des mélanges complexes de protéines que nous analysons.

A côté de cela, les spectromètres évoluent également toujours en vitesse, dynamique et sensibilité, et les banques de séquences de référence se précisent et leur volume augmente de manière exponentielle.

Les technologies vont devoir évoluer pour proposer des solutions « Clé en main » et des workflows d’interprétation performants et personnalisables en fonction des questionnements.

Nous envisageons également le déploiement de MSDA sur le Cloud avec l’aide de Jérôme Pansanel.

 

Merci à tous les deux de nous avoir accordé de votre temps précieux pour nous expliquer la protéomique. Nous vous souhaitons bonne continuation accompagnés de France Grilles.

(Propos recueillis par Silvia GERVOIS)

Haut de page