LE VIVANT
Biomathématiques

par Jean-Marc Fleury

L'histoire de la vie revue et corrigée par les mathématiques. David Sankoff fait partie des scientifiques en train de réécrire l'histoire de la vie, depuis l'apparition de la cellule originelle jusqu'à l'avènement de l'homme.

Pour en savoir plus

The Theory and Practice of Sequence Comparison.

Enfin, un article récent de David Sankoff, écrit en collaboration avec Mathieu Blanchette, est accessible intégralement sur le site du Journal of Computational Biology (numéro d'octobre 1999) à

www.catchword.com/titles/10665277.htm

ou www.liebertpub.com/cmb/default.htm

 

Dans sa maison d'Ottawa ou au Centre de recherches mathématiques de l'Université de Montréal, où il dirige les projets de recherche de plusieurs étudiants, David Sankoff «voit» dans les chromosomes les degrés de parenté entre les espèces vivantes. «Je cherche à construire quelque chose de cohérent en termes mathématiques qui permette de mieux comprendre un processus biologique. J'aime comprendre comment l'évolution fonctionne.»

Sans l'apport de mathématiciens et d'informaticiens comme David Sankoff, les grands projets de séquençage de génomes se termineraient en autant de gargantuesques indigestions de données. À lui seul, le livre du génome humain comprend plus de deux milliards de mots de trois caractères écrits à partir d'un alphabet de seulement quatre lettres : A, C, G et T. Ces lettres représentent les quatre molécules qui, enchaînées l'une à la suite de l'autre, constituent les chromosomes.

Aujourd'hui, il existe des séquenceurs capables de lire automatiquement les suites de A, C, G et T. Chaque jour, des scientifiques transmettent à des centres génomiques des séquences interminables du genre

GAATTCCCGGTTCAATCTCGTAGAACTTGCCCTTGGTGGACAGTGGGACG

TACAACACCTGCCGGTTTTCATTAAGCAGCTGGGCATACCGGTTCTTTTC

CTTCTCCCTTCCCATGTACCCACTGCCATGGGACCTGGTCGCATTGCCGT

TGCCATGTTGCGACATATTGACCTGATCCTGTTTGCCATCCTCGAAGACG

GCCAACAGACGGAATACCTGCCCGCCCCTTGCCGTCGTTTTCACGTACTG

TGGTCGTCCCTTGTTTATGGGCAGGCATCCCTCGTGCGTTGGACTGCTCG.........

(une minuscule partie d'un gène de la mouche du vinaigre).

Au rythme actuel, les ingénieurs moléculaires connaîtront dans deux à trois ans la séquence des six milliards de A, C, G et T des chromosomes humains. En même temps, ils auront recueilli les séquences génomiques de plusieurs espèces de bactéries, de plantes et d'animaux. Mais sans nouveaux outils mathématiques, cette énorme soupe à l'alphabet n'aura pas de sens. La traduction de ces assommantes séquences en une connaissance des génomes sera autant une prouesse mathématique que biologique.

Pour compliquer la tâche, on a constaté que la séquence d'un gène est découpée en sections dispersées à travers un chromosome, séparées par de très longues séquences sans aucune signification apparente. De plus, certaines séquences indicatrices de maladies génétiques graves consistent en d'interminables répétitions des trois mêmes lettres. Dans d'autres cas, la séquence défectueuse d'une maladie prend des dizaines de formes différentes.

Or, les détectives génomiques ne se satisfont pas de connaître les génomes des êtres vivants, ils cherchent aussi à déterminer leur filiation et leur succession dans le temps. Cette généalogie du vivant s'appelle phylogénie. Le déchiffrage moléculaire des génomes est en train de la réécrire. C'est, entre autres, en phylogénie que David Sankoff a apporté, et continue d'apporter, ce qu'il appelle humblement « une contribution ».

Pour mieux comprendre les changements

En effet, les êtres vivants partagent de nombreux gènes. D'une espèce à l'autre et à travers le temps, les gènes se modifient et se réarrangent. Parfois, un nouveau gène se crée à partir d'une lecture dans le sens inverse de la séquence originelle. Dans d'autres cas, le nouveau gène résulte de la répétition légèrement modifiée d'une séquence.

Quand on regarde deux espèces apparentées, dit Sankoff, on observe une redistribution des gènes. Il s'accumule des réarrangements, comme si on en brassait l'ordre. Quelles sont les opérations mathématiques qui nous aident à comprendre ces réarrangements « C'est très compliqué, ajoute-t-il immédiatement. Par exemple, si on veut comparer seulement trois génomes pour trouver l'ancêtre, Ça devient un problème exponentiel. En fait, quelqu'un a déjà prouvé qu'il n'y avait pas de méthode efficace (algorithme) lorsqu'on voulait comparer trois génomes. »

Il n'y avait rien là pour décourager David Sankoff, au contraire. « J'ai beaucoup aimé ces questions, dit-il. C'est moi qui ai relancé ce domaine. Avec mon équipe, en particulier mon étudiant Mathieu Blanchette, j'ai transformé la question en problème similaire à celui du commis voyageur. » (Il s'agit de trouver le plus court chemin permettant à un commis voyageur de visiter ses clients situés dans plusieurs villes. La branche des mathématiques qui étudie ce genre de problème s'appelle la théorie des graphes.)

« Le domaine est devenu très concurrentiel, dit David Sankoff. Il y a des informaticiens très forts. Mais il y en a peu qui ont autant de facilité à voir la problématique qui émerge de la biologie moléculaire. Je vois un problème. Je saute dedans. Après, les autres continuent », dit le mathématicien qui se défend d'être un pionnier.

retour vers le haut