Forschende der Johns Hopkins haben ein leistungsstarkes neues KI-Tool namens Splam entwickelt, das identifizieren kann, wo das Splicing in Genen erfolgt. Dieser Fortschritt könnte Wissenschaftlern helfen, genetische Daten genauer zu analysieren und neue Einblicke in die Funktion von Genen und die Rolle von Mutationen bei Krankheiten zu gewinnen.
Die Ergebnisse dieser Forschung sind in Genome Biology veröffentlicht.
Splam analysiert genetische Daten mit größerer Genauigkeit als bestehende Methoden und untersucht potenzielle Verbindungen zwischen Mutationen und Krankheiten. Es erkennt Splice-Stellen, an denen Zellen nicht essentielle Teile entfernen, was ein entscheidender Schritt beim Zusammenstellen von Gen-Transkripten ist, um funktionale Teile der DNA zu identifizieren.
„Die präzise Identifizierung von Splicing-Stellen ist der Schlüssel zum Verständnis, wie Zellen genetische Anweisungen interpretieren“, sagt Kuan-Hao Chao, Mitautor und Doktorand an der Whiting School of Engineering im Department of Computer Science, der mit dem Center for Computational Biology (CCB) verbunden ist. „Splam ermöglicht es uns, genetische Daten genau und effizient zu analysieren und zu zeigen, wie Mutationen unsere Gesundheit beeinflussen und warum dasselbe Gen unter verschiedenen Bedingungen unterschiedliche Proteine produzieren kann.“
Chao wird von seinen Beratern Steven Salzberg, dem Bloomberg Distinguished Professor für Computational Biology und Genomics sowie dem Direktor des CCB, Mihaela Pertea, einer außerordentlichen Professorin für Biomedizinische Ingenieurwissenschaften und Genetik, und Alan Mao, einem Studenten im vierten Jahr mit Doppelstudium in Biomedizinischer Ingenieurwissenschaft und Informatik, unterstützt.
Zellen verlassen sich auf Gene, um ihre Funktionen zu steuern, wobei jedes Gen sowohl nützliche Anweisungen (Exons) als auch nicht essentielle Segmente (Introns) enthält. Splicing ist der Prozess, bei dem Zellen die nicht essentiellen Teile entfernen und nur das behalten, was benötigt wird.
Die Erkennung von Splice-Stellen auf computergestützte Weise ist entscheidend für die genaue Zusammenstellung von Gen-Transkripten. RNA-Sequenzierungsexperimente messen die Gene, die unter verschiedenen Bedingungen aktiv oder inaktiv sind.
„Zum Beispiel verwenden Krebsforscher häufig RNA-Sequenzierungstechniken, um die Genexpression in gesunden und krebsartigen Zellen zu vergleichen“, erklärt Chao.
Die Identifizierung von Splice-Stellen ist auch wichtig für die Annotation von Genomen, was die Bestimmung der funktionalen Teile unserer DNA umfasst. Genetische Testdienste, wie sie von Unternehmen wie 23andMe angeboten werden, nutzen die Genomanotation, um Informationen über Abstammung, Gesundheitsrisiken und genetische Merkmale bereitzustellen.
Im Vergleich zum hochmodernen SpliceAI-Tool verwendet die Splam-Methode des Hopkins-Teams ein viel kürzeres DNA-Sequenzfenster zur Vorhersage von RNA-Splice-Stellen, was es biologisch realistischer und für Forschungszwecke praktikabler macht. Der Splam-Algorithmus verarbeitet eine DNA-Sequenz von 800 Nukleotiden und gibt die Wahrscheinlichkeit für jedes Basenpaar aus, ein Donor-, Akzeptor- oder kein Punkt zu sein.
„Unser Algorithmus versucht, diese Donor-/Akzeptor-Stellen paarweise zu erkennen, ähnlich wie eine Spliceosom-Molekülmaschine in der Zelle, wenn sie ein Intron herausschneidet“, sagt Chao.
Die Forscher entwickelten ihren Algorithmus, um Splice-Junctions innerhalb eines Fensters von 800 Nukleotiden zu erkennen, was eine viel kleinere Region ist als die 10.000 Nukleotide, die von SpliceAI benötigt werden. Das Team berichtet, dass Splam trotz der Verwendung weniger genomischer Daten eine bessere Genauigkeit bei der Erkennung von Splice-Junctions erreicht als SpliceAI.
Nach dem Training ihres Deep-Learning-Modells auf menschlicher DNA testeten die Forscher auch die genetischen Codes anderer Arten.
„Eine häufige Sorge bei Deep-Learning-Methoden ist, ob sie einfach ihre Trainingsdaten auswendig lernen oder ob ihre Vorhersagemodelle auch auf Daten funktionieren, die von den gesehenen Trainingsdaten abweichen“, sagt Chao. „Um zu bewerten, ob Splam allgemeinere Splicing-Regeln gelernt hat, sammelten wir Daten von drei successively distanteren Arten und wandten den Algorithmus auf jede von ihnen an, ohne das Modell neu zu trainieren.“
Das Team wählte die Genome eines Schimpansen, einer Maus und einer Blütenpflanze aus der Familie der Senfgewächse. Ihre anschließenden Experimente zeigten, dass das biologisch inspirierte Design von Splam auch bei diesen weiter entfernten DNA-Sequenzen hochgenaue Ergebnisse lieferte - was zeigt, dass ihre Methode tatsächlich essentielle Splicing-Muster gelernt hatte, die in vielen Tieren und Pflanzen geteilt werden.
Die nächsten Schritte des Teams umfassen die Anwendung ihres Modells auf weitere Arten und die Integration ihrer Methode in bestehende RNA-Sequenzierungspipelines für die praktische Verwendung bei der Transkriptom-Assemblierung. „Unsere Methode hat unmittelbare Anwendungen zur Verbesserung der Transkriptom-Assemblierung und zur Reduzierung von Splicing-Rauschen, was sie für eine breite Palette von genomischen Studien wertvoll macht“, sagt Chao. „Wir hoffen, dass Splam zum besseren Verständnis unserer Genome und der darin enthaltenen Gene beitragen wird.“