Miles de nuevos genes están ocultos dentro de la "materia oscura" de nuestro genoma. Un estudio reciente indica que algunos de estos pequeños fragmentos de ADN pueden producir miniproteínas, lo que podría llevar a nuevos tratamientos, incluidos vacunas e inmunoterapias para cánceres cerebrales graves.
El preprint, que aún no ha sido revisado por pares, proviene de un consorcio global dedicado a descubrir nuevos genes potenciales. Desde la finalización del primer borrador del Proyecto del Genoma Humano a principios de siglo, los científicos han intentado descifrar el libro genético de la vida. Dentro de las cuatro letras genéticas — A, T, C y G — se encuentra información crucial que podría ayudar a combatir desafíos médicos significativos, como el cáncer.
Inicialmente, el Proyecto del Genoma Humano reveló menos de 30,000 genes responsables de construir y mantener los cuerpos humanos, aproximadamente un tercio de las predicciones anteriores. Ahora, casi dos décadas después, los avances en las tecnologías de secuenciación de ADN llevan a los científicos a preguntar: "¿Qué hemos pasado por alto?"
El nuevo estudio aborda esta brecha al investigar regiones relativamente inexploradas del genoma, conocidas como "no codificantes". Estos segmentos no se han asociado aún con ninguna proteína. Al combinar varios conjuntos de datos existentes, el equipo identificó miles de nuevos genes potenciales responsables de producir aproximadamente 3,000 miniproteínas.
La funcionalidad de estas proteínas aún debe ser determinada, pero estudios preliminares sugieren que algunas están involucradas en un cáncer cerebral infantil mortal. El equipo de investigación está poniendo a disposición sus herramientas y resultados para la comunidad científica más amplia para una mayor investigación. Su plataforma se extiende más allá de la genética humana, permitiendo la exploración de los planos genéticos de otros organismos.
A pesar de los misterios que persisten, los resultados "ayudan a proporcionar una imagen más completa de la porción codificante del genoma", afirmó Ami Bhatt de la Universidad de Stanford.
Secuenciar un genoma es como leer un libro sin puntuación. Si bien la secuenciación se ha vuelto más accesible debido a la reducción de costos y a una mayor eficiencia, la interpretación de los datos es compleja. Desde el Proyecto del Genoma Humano, los investigadores han buscado identificar las "palabras" o genes que producen proteínas. Estas secuencias de ADN se dividen en codones de tres letras, cada uno de los cuales codifica un aminoácido específico, el bloque de construcción fundamental de una proteína.
Cuando se activa un gen, se transcribe en ARN mensajero, que transporta información genética del ADN a los ribosomas, la fábrica de proteínas de la célula. Se puede imaginar el proceso como un bollo con una molécula de ARN que lo atraviesa.
Al definir un gen, los científicos se centran en los marcos de lectura abiertos, que están compuestos de secuencias de ADN específicas que indican dónde comienza y termina un gen. Este marco escanea el genoma en busca de genes potenciales, que luego se validan mediante experimentos de laboratorio basados en varios criterios, incluida la capacidad de producir proteínas de más de 100 aminoácidos. Las secuencias que cumplen con este criterio se compilan en GENCODE, una base de datos internacional de genes oficialmente reconocidos.
Los genes que codifican proteínas han atraído la mayor atención debido a su relevancia para comprender enfermedades e inspirar enfoques de tratamiento. Sin embargo, gran parte de nuestro genoma es "no codificante", lo que significa que grandes secciones no producen ninguna proteína conocida.
Durante años, estos fragmentos de ADN fueron considerados basura, los restos defectuosos de nuestro pasado evolutivo. Sin embargo, estudios recientes han comenzado a revelar su valor oculto. Algunos fragmentos regulan cuándo se activan o desactivan los genes. Otros, como los telómeros, protegen contra la degradación del ADN durante la replicación y mitigan los efectos del envejecimiento.
Aún así, la doctrina sostenía que estas secuencias no producen proteínas.
Recientes evidencias están acumulándose de que las áreas no codificantes sí tienen segmentos que producen proteínas que afectan la salud.
Un estudio encontró que una pequeña sección faltante en áreas supuestamente no codificantes causó problemas intestinales hereditarios en los bebés. En ratones genéticamente modificados para imitar el mismo problema, restaurar el fragmento de ADN — que aún no se ha definido como gen — redujo sus síntomas. Los resultados subrayan la necesidad de ir más allá de los genes que codifican proteínas conocidos para explicar hallazgos clínicos, escribieron los autores.
Denominados marcos de lectura abiertos no canónicos (ncORFs) o "quizás-genes", estos fragmentos han aparecido en varios tipos de células humanas y enfermedades, lo que sugiere que tienen roles fisiológicos.
En 2022, el consorcio detrás del nuevo estudio comenzó a investigar funciones potenciales, con la esperanza de ampliar nuestro vocabulario genético. En lugar de secuenciar el genoma, analizaron conjuntos de datos que secuenciaban ARN mientras se convertía en proteínas en el ribosoma.
El método captura la salida real del genoma — incluso cadenas de aminoácidos extremadamente cortas que normalmente se consideran demasiado pequeñas para formar proteínas. Su búsqueda produjo un catálogo de más de 7,000 "quizás-genes" humanos, algunos de los cuales produjeron microproteínas que finalmente fueron detectadas dentro de células cancerosas y cardíacas.
Pero en general, en ese momento, "no nos enfocamos en las preguntas sobre la expresión o funcionalidad de las proteínas", escribió el equipo. Por lo tanto, ampliaron su colaboración en el nuevo estudio, dando la bienvenida a especialistas en ciencia de proteínas de más de 20 instituciones de todo el mundo para dar sentido a los "quizás-genes".
También incluyeron varios recursos que proporcionan bases de datos de proteínas de diversos experimentos — como la Organización del Proteoma Humano y PeptideAtlas — y añadieron datos de experimentos publicados que utilizan el sistema inmunológico humano para detectar fragmentos de proteínas.
En total, el equipo analizó más de 7,000 "quizás-genes" de una variedad de células: sanas, cancerosas y también líneas celulares inmortales cultivadas en el laboratorio. Al menos una cuarta parte de estos "quizás-genes" se tradujeron en más de 3,000 miniproteínas. Estas son mucho más pequeñas que las proteínas normales y tienen una composición única de aminoácidos. También parecen estar más sintonizadas con partes del sistema inmunológico, lo que significa que podrían ayudar a los científicos a desarrollar vacunas, tratamientos autoinmunes o inmunoterapias.
Algunas de estas miniproteínas recién encontradas pueden no tener un papel biológico en absoluto. Pero el estudio brinda a los científicos una nueva forma de interpretar funciones potenciales. Para garantizar la calidad, el equipo organizó cada miniproteína en un nivel diferente, según la cantidad de evidencia de experimentos, e integró los datos en una base de datos existente para que otros la exploren.
Estamos comenzando a investigar la materia oscura de nuestro genoma. Quedan muchas preguntas.
“Una capacidad única de nuestra colaboración multi-consorcio es la capacidad de desarrollar consenso sobre los desafíos clave que sentimos necesitan respuestas”, escribió el equipo.
Por ejemplo, algunos experimentos utilizaron células cancerosas, lo que significa que ciertos "quizás-genes" podrían estar activos solo en esas células — pero no en las normales. ¿Deberían ser llamados genes?
A partir de aquí, el aprendizaje profundo y otros métodos de IA pueden ayudar a acelerar el análisis. Aunque la anotación de genes está "históricamente arraigada en la inspección manual" de los datos, escribieron los autores, la IA puede procesar múltiples conjuntos de datos mucho más rápido, aunque solo como un primer paso para encontrar nuevos genes.
¿Cuántos podrían descubrir los científicos? "50,000 está en el ámbito de lo posible", dijo el autor del estudio Thomas Martinez.