Les chercheurs de Johns Hopkins ont développé un nouvel outil d'IA puissant appelé Splam qui peut identifier où l'épissage se produit dans les gènes. Cette avancée pourrait aider les scientifiques à analyser les données génétiques avec plus de précision, offrant de nouvelles perspectives sur la fonction des gènes et le rôle des mutations dans les maladies.
Les résultats de cette recherche sont publiés dans Genome Biology.
Splam analyse les données génétiques avec une plus grande précision que les méthodes existantes, explorant les liens potentiels entre mutations et maladies. Il reconnaît les sites d'épissage, où les cellules suppriment les portions non essentielles, ce qui est une étape cruciale pour assembler les transcrits géniques afin d'identifier les parties fonctionnelles de l'ADN.
« Identifier précisément les sites d'épissage est essentiel pour comprendre comment les cellules interprètent les instructions génétiques », déclare Kuan-Hao Chao, co-auteur principal et doctorant au Département d'informatique de la Whiting School of Engineering, affilié au Center for Computational Biology (CCB). « Splam nous permet d'analyser les données génétiques avec précision et efficacité, montrant comment les mutations affectent notre santé et pourquoi le même gène peut produire différentes protéines dans différentes conditions. »
Chao est accompagné de ses conseillers, Steven Salzberg, professeur distingué de biologie computationnelle et de génomique et directeur du CCB, Mihaela Pertea, professeur associé d'ingénierie biomédicale et de médecine génétique, et Alan Mao, étudiant de quatrième année en ingénierie biomédicale et informatique.
Les cellules comptent sur les gènes pour guider leurs fonctions, contenant à la fois des instructions utiles (exons) et des segments non essentiels (introns). L'épissage est le processus par lequel les cellules éliminent les portions non essentielles, ne conservant que ce qui est nécessaire.
La reconnaissance des sites d'épissage de manière computationnelle est cruciale pour assembler avec précision les transcrits géniques. Les expériences de séquençage d'ARN mesurent les niveaux d'expression des gènes dans différentes conditions, déterminant si un gène est actif ou inactif.
« Par exemple, les chercheurs en cancer utilisent souvent des techniques de séquençage d'ARN pour comparer l'expression des gènes dans des cellules saines et cancéreuses », explique Chao.
Identifier les sites d'épissage est également important pour l'annotation des génomes, qui consiste à déterminer les parties fonctionnelles de l'ADN. Les services de tests génétiques, tels que ceux proposés par 23andMe, utilisent l'annotation génomique pour fournir des informations sur l'ascendance, les risques pour la santé et les traits génétiques.
Comparé à l'outil de pointe SpliceAI, la méthode Splam de l'équipe de Hopkins utilise une fenêtre de séquence d'ADN plus courte pour prédire les sites d'épissage de l'ARN, la rendant plus réaliste biologiquement pour les recherches. L'algorithme Splam traite une séquence d'ADN de 800 nucléotides et produit la probabilité pour chaque paire de bases d'être un site donneur, un site accepteur ou aucun des deux.
« Notre algorithme tente de reconnaître ces sites donneurs/accepteurs par paires, de manière similaire à la façon dont une machine moléculaire spliceosome fonctionne dans les cellules », déclare Chao.
L'équipe a développé son algorithme pour reconnaître les jonctions d'épissage dans une fenêtre de 800 nucléotides, une région bien plus petite que les 10 000 nucléotides requis par SpliceAI. Malgré l'utilisation de moins de données génomiques, Splam atteint une meilleure précision de reconnaissance des jonctions d'épissage.
Après avoir entraîné leur modèle d'apprentissage profond sur l'ADN humain, les chercheurs l'ont testé sur les génomes d'un chimpanzé, d'une souris et d'une plante à fleurs. Leurs expériences ont confirmé que la conception inspirée biologiquement de Splam produisait des résultats précis sur ces séquences d'ADN plus éloignées, indiquant qu'il avait appris des modèles d'épissage essentiels partagés entre différentes espèces.
Les prochaines étapes de l'équipe consistent à appliquer le modèle à d'autres espèces et à l'intégrer dans les pipelines de séquençage d'ARN existants pour une utilisation pratique dans l'assemblage du transcriptome. « Notre méthode a des applications immédiates pour améliorer l'assemblage du transcriptome et réduire le bruit d'épissage, ce qui la rend précieuse pour un large éventail d'études génomiques », conclut Chao.