Reflexions, le site de vulgarisation de l'Université de Liège


L’ancêtre des Eucaryotes, un organisme déjà complexe

01/06/2012

Au terme « ancien » est souvent associé le terme « simple » dans le domaine de l’évolution. En effet, plus un organisme est simple plus on a tendance à le considérer comme ancien (et vice versa). Cette vision des choses, trop réductrice, est une fois de plus mise à l’épreuve par des chercheurs liégeois. Ces derniers ont découvert que la machinerie du dernier ancêtre commun des Eucaryotes était déjà très complexe, notamment en ce qui concerne le processus de maturation de l’ARN.  

Une cellule est une véritable usine miniature. Tout comme une usine, la cellule a besoin d’énergie et de matières premières pour fonctionner et, grâce à un travail à la chaîne bien organisé, elle génère des produits finis ainsi que des déchets. La machinerie des cellules est essentiellement programmée pour créer des protéines. Si toutes les cellules sont équipées de cette machinerie sophistiquée, le type de protéines qu’elles produisent dépend de leur fonction.

Parmi les maillons de la chaîne de production des protéines, on distingue les étapes de transcription, d’épissage et de traduction.

Transcription epissage
Au cours de la transcription, la double hélice d’ADN se déroule pour permettre à l’ARN polymérase, un complexe enzymatique, de venir lire, au niveau du simple brin d’ADN, la séquence correspondant au gène qui encode la protéine à produire. Tout en se déplaçant sur l’ADN, l’ARN polymérase « tisse » un ARN précurseur appelé pré-ARN messager. Si celui-ci contient toutes les informations nécessaires pour générer ladite protéine, il inclut également des informations superflues dont il faut se débarrasser avant la traduction de l’ARN messager en acides aminés qui composent la protéine. « En effet, chez les Eucaryotes, les gènes sont morcelés ou en mosaïque, c'est-à-dire qu’ils sont constitués de séquences codantes et régulatrices, les exons, et de séquences non codantes, les introns », explique le Professeur Patrick Motte, qui dirige le laboratoire de Génomique fonctionnelle et d’imagerie moléculaire végétale de l’ULg. « Les exons sont les parties que l’on retrouvera au niveau de l’ARN messager mature alors que les introns seront éliminés », poursuit Patrick Motte. Ainsi, le pré-ARN messager va subir une sorte de nettoyage au cours duquel il sera allégé de ses introns et à l’issue duquel il sera désormais mature et prêt à être traduit. « Le processus au cours duquel les introns sont reconnus puis éliminés et les exons sont reliés les uns aux autres s’appelle l’épissage », précise Patrick Motte.

Plusieurs protéines pour un seul gène

Jusqu’il y a peu, il était communément admis qu’un gène encode une protéine spécifique en passant par l’intermédiaire d’un ARN messager mature généré suite à l’épissage constitutif d’un pré-ARN messager. Par épissage constitutif, on entend que chaque intron est éliminé et chaque exon est conservé dans l’ARN messager final. Ce schéma classique est chamboulé depuis quelques années par la découverte d’un autre type d’épissage : l’épissage alternatif. Contrairement à l’épissage constitutif, cette seconde forme d’épissage n’aboutit pas strictement à l’exclusion de tous les introns et à l’inclusion de tous les exons dans l’ARN messager mature. En fonction de divers évènements encore méconnus, au cours de l’épissage alternatif, certains exons peuvent ne pas être conservés et certains introns peuvent être inclus dans l’ARNm mature. Ainsi l’expression d’un gène peut mener à la formation de plusieurs ARNm différents et donc à la production de plusieurs protéines, ou isoformes protéiniques, différentes.

« L’expression d’un grand nombre de gènes est régulée par un épissage alternatif. Chez l’homme par exemple, de récentes études montrent que cela concernerait 95% des gènes », précise Patrick Motte. C’est l’épissage alternatif qui est à l’origine de la grande diversité de protéines produites à partir d’un nombre limité de gènes. « Pour reprendre l’exemple de l’homme, lors du séquençage du génome humain, les scientifiques se sont étonnés de ne compter que 30 000 gènes. Cela leur paraissait très peu au vu de la complexité de notre organisme. En effet 30 000 gènes, c’est également ce que contient le génome de la plus petite espèce végétale à fleurs… On sait maintenant que l’épissage alternatif est le processus prépondérant menant à la grande diversité des protéines », continue le Professeur.

Epissage-alternatif

Retracer l’histoire évolutive des protéines SR

Qu’il soit constitutif ou alternatif, l’épissage nécessite un édifice macromoléculaire complexe appelé particule d’épissage (ou spliceosome) et qui est elle-même constituée d’une centaine de protéines différentes. Parmi elles, on compte les protéines SR, baptisées comme cela en raison de leur domaine riche en dipeptides sérine-arginine. « Les protéines SR participent à l’assemblage de la particule d’épissage, à la sélection des sites d’épissage et au maintien ou non d’introns et d’exons dans l’ARNm », indique Patrick Motte.

C’est dans le cadre de la nouvelle thématique de recherche concernant l’épissage alternatif que Patrick Motte a développée qu’il a commencé à s’intéresser aux protéines SR. Alors qu’il travaillait sur ces protéines, le scientifique a voulu leur déterminer leur origine au cours de l'évolution et, en particulier, savoir si elles étaient présentes chez toutes les plantes. « A mon humble niveau, je me suis mis à comparer et aligner quelques séquences de la lignée verte (algues vertes et plantes terrestres) en vue d’étudier leur évolution mais cela est vite devenu fort complexe. C’est pourquoi j’ai demandé au Professeur Denis Baurain si cela l’intéressait de collaborer pour cette étude », explique Patrick Motte. 

Le contact établi, les chercheurs décident de faire les choses en grand. Plutôt que de se limiter à analyser la présence des protéines SR au sein de la lignée verte , ils s’attaquent à rechercher la présence de protéines SR à l’échelle de l’arbre du vivant ! « Nous avons étendu cette étude à de nombreuses espèces pour lesquelles, au moment de l’étude, le protéome, c’est-à-dire l’ensemble des protéines, était connu », précise Patrick Motte. L’idée était, entre autres, de pouvoir répondre à la question suivante: les protéines SR étaient-elles déjà présentes chez le dernier ancêtre commun des Eucaryotes ?

Des analyses titanesques

« En phylogénie, il est important que les séquences utilisées soient bien conservées », indique le Professeur Motte. Or ce n’est pas le cas du domaine riche en dipeptides sérine-arginine qui a valu leur nom aux protéines SR. Mais, outre ce domaine, ces protéines présentent  notamment un domaine RRM (pour RNA-recognition motif), qui est un domaine de liaison à l’ARN. Contrairement au domaine SR, celui-là présente les « qualités phylogénétiques » nécessaires. C’est donc le domaine RRM que les chercheurs ont choisi pour étudier l’histoire évolutive des protéines SR. « C’est un petit domaine, de 80-90 acides aminés, mais c’était le seul véritablement utile d’un point de vue phylogénétique », poursuit Patrick Motte.

La mission des chercheurs (Denis Baurain, Sophie Califice, Marc Hanikenne et Patrick Motte) était dès lors rien de moins que d’identifier et étudier toutes les protéines à RRM au sein des protéomes de plus de 200 organismes! Et ce tant chez des Procaryotes (bactéries et archées) que chez des Eucaryotes (plantes, animaux, champignons et protistes)… « Nous nous sommes alors retrouvés avec plus de 12 000 séquences différentes », précise Patrick Motte. « Cela était très difficile à gérer mais indispensable pour retracer l’évolution de ces protéines. La plupart des autres études sur le sujet ne portaient que sur quelques centaines de séquences au maximum », poursuit le scientifique.  

Afin de pouvoir analyser cette énorme quantité de données, les chercheurs ont dû mettre au point des techniques compliquées. Le Professeur Denis Baurain a notamment élaboré de nouveaux algorithmes afin de compléter les programmes informatiques déjà disponibles pour de telles analyses. « Les analyses ont nécessité des mois de calculs sur un super ordinateur et un énorme travail d’interprétation », indiquent les deux scientifiques. « Nous avons eu une double approche, automatique d’une part, avec l’utilisation d’ordinateurs pour le prétraitement des données, et manuelle d’autre part, avec un examen minutieux des résultats obtenus », poursuit Denis Baurain. Ainsi, les gigantesques arbres phylogénétiques créés par le super ordinateur sont ensuite passés sous la loupe des chercheurs à la recherche des protéines SR. Outre cette double approche, les chercheurs ont également utilisé divers modèles phylogénétiques afin d’appuyer leurs résultats. En effet, travailler sur une séquence aussi courte que le domaine RRM était un défi. « De ce fait nous avons multiplié les approches car chacune d’elles nous donnait des résultats statistiques peu certains. Mais comme toutes convergeaient vers une même tendance, cela a conforté la validité de nos résultats », explique Denis Baurain. 

Les protéines SR, une ancienne innovation !

Les résultats obtenus furent à la hauteur du travail et du temps que les chercheurs ont investi dans cette étude lancée en 2007. En effet, plusieurs conclusions importantes en ressortent et sont publiées dans le journal Plant Physiology (1). Les analyses ont révélé que les protéines SR sont présentes chez un très grand nombre d’organismes eucaryotes. Mieux encore, les sous-familles de ces protéines se retrouvent au sein de différents groupes d’Eucaryotes. « Cela signifie que ces sous-familles étaient déjà présentes chez une forme eucaryote ancestrale. Car quand on retrouve une même famille ou sous-famille de protéines chez des organismes aussi éloignés que des plantes et des animaux, soit il s’agit d’un phénomène de convergence, soit elles ont une origine commune, ce que confirme notre travail concernant les protéines SR », souligne Patrick Motte. Ainsi, une séquence ancestrale aurait évolué pour donner différentes familles et sous-familles de protéines SR qui auraient déjà été présentes chez le dernier ancêtre commun des Eucaryotes (LECA, pour Last Eukaryotic Common Ancestor). Outre l’intérêt de cette découverte pour comprendre l’histoire des protéines SR, cela signifie également que LECA avait déjà une machinerie de maturation de l’ARN très complexe et était loin de l’organisme simple que l’on avait pu s’imaginer. « De manière générale, on pense souvent que si un organisme est simple, c’est qu’il est ancien (et vice versa) mais ce n’est pas toujours le cas », indique Patrick Motte. « L’évolution ne va pas toujours dans le sens de la complexité », poursuit Denis Baurain. « La levure en est un exemple. Cet organisme ne présente pas de protéines SR. La levure a évolué en simplifiant sa machinerie de maturation de l’ARN par rapport à celle que présentait LECA et que présentent encore ses cousins actuels », précise Denis Baurain.

Le domaine RRM, déjà présent chez l’ancêtre commun universel ?

Au-delà de la lumière qu’elle apporte sur l’évolution des protéines SR, cette étude phylogénétique gargantuesque touche aussi à la superstructure de l’arbre du vivant. En montrant qu’un grand nombre de bactéries présentent des protéines contenant un domaine RRM fort semblable à celui des protéines SR des Eucaryotes, elle suggère en effet que ce domaine existait potentiellement chez le dernier ancêtre commun universel (LUCA pour Last Universal Common Ancestor). « Ce domaine est extrêmement bien conservé et présente des motifs identiques chez les Eucaryotes et les Procaryotes. Au vu de leur complexité et de leur proximité phylogénétique, il est peu probable que ces domaines RRM soient apparus (ou aient été transférés) indépendamment chez ces deux groupes », explique Denis Baurain.

Schemas-Evolution

Alors que de nombreux scientifiques pensent que les Eucaryotes (beaucoup plus complexes, notamment leur machinerie) sont issus de la fusion entre une archée et une bactérie (deux organismes procaryotes, donc), d’autres soutiennent la vision plus classique qu’archées, bactéries et Eucaryotes ont évolué séparément à partir de LUCA. Même si l’étude du RRM ne permet pas de trancher entre ces deux hypothèses, elle infirme toutefois l’idée que LUCA était un organisme pourvu d’une machinerie très simple, ce qui ouvre la porte à une réhabilitation de l’hypothèse traditionnelle. « On retrouve le domaine RRM chez les Eucaryotes et chez certaines bactéries. On peut donc raisonnablement imaginer que ce domaine était présent chez LUCA et qu’il ait ensuite disparu, au cours de l’évolution chez les archées et chez certaines bactéries », conclut Patrick Motte.

L’importance de l’étude phylogénétique menée par les deux équipes des Professeurs liégeois n’a pas échappé à la communauté scientifique. Ainsi, elle a non seulement fait l’objet de la couverture du journal Plant Physiology en février dernier, mais a également attiré l’attention de Faculty of 1000, une organisation scientifique internationale rassemblant plus de 10 000 experts en biologie et médecine qui évaluent la qualité des publications dans ces domaines, qui l’a commentée très positivement (« must read ») et recommandée comme exemple à suivre pour d’autres études en phylogénie.

(1) Sophie Califice, Denis Baurain, Marc Hanikenne, and Patrick Motte. A Single Ancient Origin for Prototypical Serine/Arginine-Rich Splicing Factors. Plant Physiol. 2012 February; 158(2): 546–560.


© Universit� de Li�ge - https://www.reflexions.uliege.be/cms/c_44066/fr/l-ancetre-des-eucaryotes-un-organisme-deja-complexe?printView=true - 28 mars 2024