Comparer chaque gène humain à ceux d'une bactérie comme Escherichia coli ou bien à ceux d'une souris, voilà qui est presque fait. But de l'opération : dégager des ressemblances qui aideront à déterminer le rôle d'un gène dans notre organisme et, finalement, aboutir à la compréhension de l'évolution des espèces, voire à des traitements de maladies d'origine génétique (myopathies, mais aussi cancers ou affections cardio-vasculaires). Mathématiciens, biologistes et informaticiens travaillent de concert à déchiffrer les séquences de protéines afin d'y traquer les gènes et de constituer une immense base de données grâce aux programmes Teraprot et Décrypthon.
La clef de la fonction biologique de chaque gène se trouve dans le code qu'il impose aux séquences d'acides aminés, appelées protéomes. Reste à découvrir ce code. Le puissant moteur de recherche qui vient d'être mis au point vise à permettre aux chercheurs qui s'y emploient de vérifier leurs hypothèses. Concrètement, un tableau, bientôt accessible sur Internet, comprendra 500 000 lignes sur autant de colonnes pour classer les informations obtenues à partir des comparaisons entre protéomes. Il faudra ensuite relancer les comparaisons en introduisant de plus en plus d'organismes différents, ce qui implique une explosion du nombre des calculs. "Tous les sept mois, le nombre de données brutes en biologie est multiplié par deux", explique Pierre Tambourin, directeur du Génopole d'Evry. D'où l'importance de réunir d'énormes capacités de traitement informatique.
Teraprot et Décrypthon ont testé deux stratégies complémentaires, qui utilisent des machines, des algorithmes et des protéomes différents. Le recoupement des résultats permet de valider des conclusions. Teraprot a choisi d'utiliser un supercalculateur tel que Tera, la machine la plus puissante d'Europe. Ce mastodonte, fabriqué par Compaq en 2001 pour le ministère de la défense (Le Monde du 26 février), est composé de 2 560 processeurs reliés en série et peut effectuer jusqu'à 5 000 milliards d'opérations par seconde.
Mais, bien que le Commissariat à l'énergie atomique (CEA) ait accepté de le prêter quelques jours, Tera n'a pas vocation à être disponible à temps plein pour la recherche. Décrypthon, au contraire, a divisé le travail en faisant appel à la solidarité des internautes, grâce à la méthode du "calcul partagé". Chaque volontaire télécharge un programme qui permet à son ordinateur personnel, lorsqu'il se met en veille, de calculer un petit bout du projet. Inconvénients : la difficulté de la mise en réseau et les risques de propagation de virus.
"DANS LA COUR DES GRANDS"
Les deux projets reposent sur la collaboration entre acteurs publics et privés. Dans le cas de Décrypthon, ce sont IBM, la société Genomining (spécialiste en bio-informatique) et l'association française contre les myopathies (AFM) qui se sont partagé les tâches. Pour Teraprot, le CEA a demandé l'aide de la société informatique Gene-IT, qui a élaboré le logiciel de comparaison des protéomes. A l'autre bout de la chaîne, le CNRS et le Centre national de ressources en informatique pour la génomique (Infobiogen) sont en train de réaliser la mise en forme des résultats bruts afin de pouvoir les mettre à la disposition du public, ce qui devrait être effectué dans quelques semaines.
Une telle collaboration pourrait se développer entre pays. Les 27 et 28 février, des experts se sont réunis au Génopole d'Evry pour partager leurs découvertes et leur savoir-faire. Mais la course au décryptage du génome cache également des enjeux politiques.
En matière de possibilités de calcul génomique, la France a pris du retard sur ses voisins européens (l'Allemagne, la Grande-Bretagne), sans parler des Etats-Unis, dont les crédits sont environ 30 fois supérieurs. "Avec le projet Teraprot, nous avons une chance de revenir dans la cour des grands, plaide Daniel Verwaerde, directeur du CEA. Mais cela passe par des choix politiques."
L'objectif primordial demeure malgré tout d'"ouvrir de nouvelles pistes à la médecine", rappelle Eric Moliné, président de l'AFM. Et la victoire est loin d'être acquise, puisqu'il reste à agrandir et à exploiter la base de données. Parmi les prochaines étapes, le projet CluSTR doit classifier les protéines par familles, et un nouveau supercalculateur sera fabriqué et dédié à la recherche scientifique et industrielle.
"La déconstruction du vivant par éléments simples conduit juste à l'information, résume Bernard Pau, directeur du département sciences de la vie au CNRS. Mais, pour parvenir à la connaissance, la construction d'une théorie complexe du vivant reste à faire."
Ada Mercier