Investigadores de Johns Hopkins han desarrollado una nueva herramienta de IA poderosa llamada Splam, que puede identificar dónde ocurre el empalme en los genes. Este avance podría ayudar a los científicos a analizar datos genéticos con mayor precisión, ofreciendo nuevas perspectivas sobre la función de los genes y el papel de las mutaciones en las enfermedades.
Los resultados de esta investigación se publican en Genome Biology.
Splam analiza datos genéticos con mayor precisión que los métodos existentes, explorando posibles vínculos entre mutaciones y enfermedades. Reconoce sitios de empalme, donde las células eliminan porciones no esenciales, lo que es un paso crucial para ensamblar transcritos de genes y identificar partes funcionales del ADN.
“Identificar con precisión los sitios de empalme es clave para entender cómo las células interpretan las instrucciones genéticas”, dice Kuan-Hao Chao, coautor principal y estudiante de doctorado en el Departamento de Ciencias de la Computación de la Whiting School of Engineering, afiliado al Center for Computational Biology (CCB). “Splam nos permite analizar datos genéticos con precisión y eficiencia, mostrando cómo las mutaciones afectan nuestra salud y por qué el mismo gen puede producir diferentes proteínas en diferentes condiciones.”
Chao está acompañado por sus asesores, Steven Salzberg, profesor distinguido de biología computacional y genómica y director del CCB, Mihaela Pertea, profesora asociada de ingeniería biomédica y medicina genética, y Alan Mao, un estudiante de cuarto año con doble especialidad en ingeniería biomédica e informática.
Las células dependen de los genes para guiar sus funciones, conteniendo cada gen tanto instrucciones útiles (exones) como segmentos no esenciales (intrones). El empalme es el proceso mediante el cual las células eliminan las porciones no esenciales, conservando solo lo que se necesita.
Reconocer sitios de empalme de manera computacional es un paso crucial para ensamblar con precisión los transcritos de genes. Los experimentos de secuenciación de ARN miden los niveles de expresión de un gen en diferentes condiciones, determinando si un gen está activo o inactivo.
“Por ejemplo, los investigadores de cáncer utilizan técnicas de secuenciación de ARN para comparar la expresión génica en células sanas frente a cancerosas”, explica Chao.
Identificar sitios de empalme también es importante en la anotación de genomas, que implica identificar qué partes de nuestro ADN son funcionales y qué roles desempeñan en el cuerpo. Los servicios de pruebas genéticas, como los ofrecidos por empresas como 23andMe, utilizan la anotación del genoma para proporcionar información sobre ascendencia, riesgos de salud y rasgos genéticos.
Comparado con la herramienta de vanguardia SpliceAI, el método Splam del equipo de Hopkins utiliza una ventana de secuencia de ADN mucho más corta para predecir sitios de empalme de ARN, lo que lo hace más biológicamente realista y factible para su uso en investigación. El algoritmo Splam toma una secuencia de ADN de 800 nucleótidos y produce la probabilidad de que cada par de bases sea un sitio donador, un sitio aceptador o ninguno de los dos.
“Nuestro algoritmo intenta reconocer estos sitios donadores/aceptadores en pares, de manera similar a cómo una máquina molecular spliceosoma funciona en la célula cuando corta un intrón”, dice Chao.
El equipo desarrolló su algoritmo para reconocer uniones de empalme dentro de una ventana de 800 nucleótidos, una región mucho más pequeña que los 10,000 nucleótidos requeridos por SpliceAI. El equipo informa que, a pesar de requerir menos datos genómicos, Splam logra una mejor precisión en el reconocimiento de uniones de empalme que SpliceAI.
Después de entrenar su modelo de aprendizaje profundo en ADN humano, los investigadores realizaron pruebas adicionales en los códigos genéticos de otras especies.
“Una preocupación frecuente sobre los métodos de aprendizaje profundo es si simplemente memorizan sus datos de entrenamiento o si sus modelos predictivos funcionarán en datos que divergen de lo que han visto en el entrenamiento”, dice Chao. “Para evaluar si Splam había aprendido reglas de empalme más generales, recopilamos datos de tres especies sucesivamente más distantes y aplicamos el algoritmo a cada una de ellas sin reentrenar.”
El equipo eligió los genomas de un chimpancé, un ratón y una planta con flores de la familia de las mostazas. Sus experimentos posteriores demostraron que el diseño biológicamente inspirado de Splam aún producía resultados altamente precisos en estas secuencias de ADN más distantes, mostrando que su método había aprendido patrones de empalme esenciales compartidos entre muchos animales y plantas.
Los próximos pasos del equipo incluyen aplicar su modelo a más especies e integrar su método en las tuberías de secuenciación de ARN existentes para su uso práctico en el ensamblaje del transcriptoma. “Nuestro método tiene aplicaciones inmediatas para mejorar el ensamblaje del transcriptoma y reducir el ruido de empalme, lo que lo hace valioso para una amplia gama de estudios genómicos”, dice Chao. “Esperamos que Splam contribuya a una mejor comprensión de nuestros genomas y de los genes dentro de ellos.”