Une nouvelle étude révèle des gènes cachés dans le génome humain, transformant potentiellement les traitements

Édité par : TashaS Samsonova

Des milliers de nouveaux gènes sont cachés dans la "matière noire" de notre génome. Une étude récente indique que certains de ces petits fragments d'ADN peuvent produire des miniprotéines, ce qui pourrait mener à de nouveaux traitements, y compris des vaccins et des immunothérapies pour des cancers cérébraux graves.

Le préprint, qui n'a pas encore été soumis à l'examen par les pairs, provient d'un consortium mondial dédié à la découverte de nouveaux gènes potentiels. Depuis l'achèvement du premier brouillon du Projet Génome Humain au tournant du siècle, les scientifiques ont cherché à décoder le livre de la vie génétique. Parmi les quatre lettres génétiques — A, T, C et G — se cache des informations cruciales qui pourraient aider à lutter contre des défis médicaux majeurs, tels que le cancer.

Au départ, le Projet Génome Humain a révélé moins de 30 000 gènes responsables de la construction et du maintien des corps humains, soit environ un tiers des prévisions antérieures. Maintenant, près de deux décennies plus tard, les avancées dans les technologies de séquençage de l'ADN incitent les scientifiques à se demander : "Qu'avons-nous manqué ?"

La nouvelle étude répond à cette lacune en examinant des régions relativement inexplorées du génome connues sous le nom de "non-codantes". Ces segments n'ont pas encore été associés à des protéines. En intégrant plusieurs ensembles de données existants, les chercheurs ont identifié des milliers de nouveaux gènes potentiels responsables de la production d'environ 3 000 miniprotéines.

La fonctionnalité de ces protéines reste à déterminer, mais des études préliminaires suggèrent leur implication dans un cancer cérébral infantile mortel. L'équipe de recherche met à disposition ses outils et résultats pour la communauté scientifique élargie afin d'approfondir l'exploration. Leur plateforme s'étend au-delà de la génétique humaine, permettant d'explorer les plans génétiques d'autres organismes.

Malgré les mystères persistants, les résultats "aident à fournir une image plus complète de la portion codante du génome", a déclaré Ami Bhatt de l'Université de Stanford.

Le séquençage d'un génome ressemble à la lecture d'un livre sans ponctuation. Bien que le séquençage soit devenu plus accessible grâce à la réduction des coûts et à l'amélioration de l'efficacité, l'interprétation des données est complexe. Depuis le Projet Génome Humain, les chercheurs ont cherché à identifier les "mots" ou gènes qui produisent des protéines. Ces séquences d'ADN sont ensuite divisées en codons de trois lettres, chacun codant un acide aminé spécifique, l'unité fondamentale des protéines.

Lorsqu'un gène est activé, il est transcrit en ARN messager, qui transmet des informations génétiques de l'ADN au ribosome, la fabrique de protéines de la cellule. Le processus peut être visualisé comme un petit pain avec une molécule d'ARN qui le traverse.

Au départ, les scientifiques définissent un gène en se concentrant sur des cadres de lecture ouverts, qui sont des séquences d'ADN spécifiques indiquant où un gène commence et se termine. Ce cadre parcourt le génome à la recherche de gènes potentiels, validés par des expériences de laboratoire basées sur divers critères, y compris la capacité à produire des protéines dépassant 100 acides aminés en taille. Les séquences répondant à ce critère sont compilées dans GENCODE, une base de données internationale de gènes.

Les gènes codant des protéines ont suscité une attention considérable en raison de leur pertinence pour la compréhension des maladies et l'inspiration des approches de traitement. Cependant, une part importante de notre génome est "non-codante", ce qui signifie que de grands segments ne produisent aucune protéine reconnue. Pendant des années, ces régions d'ADN ont été considérées comme des déchets, des vestiges de l'histoire évolutive. Cependant, des recherches récentes ont commencé à révéler leur signification cachée.

Certaines séquences non-codantes régulent l'activation des gènes, tandis que d'autres, comme les télomères, protègent l'ADN de la dégradation lors de la réplication et atténuent les effets du vieillissement. Malgré la croyance dominante selon laquelle les régions non-codantes ne produisent pas de protéines, des preuves émergentes suggèrent le contraire.

Une étude a identifié une section manquante dans des régions non-codantes qui a conduit à des problèmes intestinaux héréditaires chez les nourrissons. Chez des souris génétiquement modifiées imitant cette condition, la restauration du fragment d'ADN non défini a atténué les symptômes. Les auteurs ont souligné la nécessité d'explorer au-delà des gènes codants connus pour élucider les observations cliniques.

Appelés cadres de lecture ouverts non canoniques (ncORFs) ou "peut-être-gènes", ces séquences ont été détectées dans divers types cellulaires humains et maladies, indiquant des fonctions physiologiques potentielles.

En 2022, le consortium a commencé à enquêter sur les fonctions potentielles, visant à élargir le vocabulaire génétique. Plutôt que de séquencer le génome, ils ont analysé des ensembles de données qui suivaient l'ARN en cours de conversion en protéines dans le ribosome, capturant la sortie réelle du génome, y compris de courtes chaînes d'acides aminés normalement considérées comme trop petites pour la synthèse des protéines. Cette recherche a produit un catalogue de plus de 7 000 "peut-être-gènes" humains, dont certains ont produit des microprotéines détectées dans des cellules cancéreuses et cardiaques.

Cependant, à ce stade, l'équipe a noté : "nous ne nous sommes pas concentrés sur les questions d'expression ou de fonctionnalité des protéines." Ils ont élargi leur collaboration dans la nouvelle étude, intégrant des spécialistes de la science des protéines de plus de 20 institutions à travers le monde pour interpréter les "peut-être-gènes".

L'équipe a également utilisé diverses ressources fournissant des bases de données de protéines, telles que l'Organisation du protéome humain et PeptideAtlas, et a incorporé des données d'expériences utilisant le système immunitaire humain pour identifier des fragments de protéines.

Au total, les chercheurs ont analysé plus de 7 000 "peut-être-gènes" provenant de divers types cellulaires : sains, cancéreux et lignées cellulaires immortalisées cultivées en laboratoire. Au moins un quart de ces "peut-être-gènes" se sont traduits par plus de 3 000 miniprotéines, significativement plus petites que les protéines typiques, avec des compositions uniques en acides aminés. Elles semblent également plus alignées avec les composants du système immunitaire, suggérant des applications potentielles dans le développement de vaccins, de thérapies auto-immunes ou d'immunothérapies.

Certaines de ces miniprotéines nouvellement identifiées peuvent ne pas avoir de rôles biologiques. Néanmoins, l'étude présente une approche novatrice pour les scientifiques afin d'interpréter les fonctions potentielles. Pour garantir la qualité, l'équipe a classé chaque miniprotéine en différentes catégories basées sur les preuves expérimentales et les a intégrées dans une base de données existante pour une exploration ultérieure.

La recherche sur la matière noire du génome ne fait que commencer, avec de nombreuses questions encore sans réponse. Les auteurs ont noté : "Une capacité unique de notre collaboration multi-consortium est la capacité de développer un consensus sur les défis clés que nous estimons nécessiter des réponses." Par exemple, certaines expériences ont utilisé des cellules cancéreuses, ce qui signifie que certains "peut-être-gènes" pourraient n'être actifs que dans ces cellules, soulevant la question de savoir s'ils doivent être classés comme des gènes.

L'analyse future pourrait bénéficier de l'apprentissage profond et des méthodes d'IA, accélérant le processus d'identification. Bien que l'annotation des gènes ait historiquement reposé sur une inspection manuelle des données, les auteurs affirment que l'IA peut traiter rapidement plusieurs ensembles de données, servant de premier filtre pour la découverte de nouveaux gènes.

Combien de nouveaux gènes les scientifiques pourraient-ils découvrir ? Selon l'auteur de l'étude Thomas Martinez, "50 000 est dans le domaine du possible."

Avez-vous trouvé une erreur ou une inexactitude ?

Nous étudierons vos commentaires dans les plus brefs délais.