scAGDE: Eine neuartige Methode zur Analyse von Einzelzell-Chromatin-Zugänglichkeitsdaten

Forscher haben scAGDE [ess-see-ay-jee-dee-ee] vorgestellt, eine neue computergestützte Methode zur Analyse von Einzelzell-ATAC-seq [A-T-A-C-seq]-Daten. ATAC-seq ist eine Technik, die verwendet wird, um Bereiche mit offenem Chromatin [kroh-muh-tin] zu identifizieren, was anzeigt, wo DNA für die Genexpression zugänglich ist. Einzelzell-ATAC-seq ermöglicht es Wissenschaftlern, diese Zugänglichkeit in einzelnen Zellen zu untersuchen und Einblicke in Zellidentität und -funktion zu gewinnen.

scAGDE, kurz für Single-Cell Chromatin Accessibility Model-Based Deep Graph Embedded Learning Method, wurde entwickelt, um spärliche Einzelzell-ATAC-seq-Daten effizient zu verarbeiten. Die Methode rekonstruiert sowohl die Chromatin-Zugänglichkeitsprofile als auch den benachbarten Graphen aus derselben niedrigdimensionalen Zelldarstellung. Dies ermöglicht es scAGDE, die Chromatin-Zugänglichkeitsprofile der analysierten Zellen und ihrer Nachbarzellen sowie die Zell-Zell-Interaktionsbeziehungen zwischen ihnen beizubehalten.

Das Modell verwendet einen Chromatin-Zugänglichkeits-basierten Autoencoder [aw-toh-en-koh-der], um die Bedeutung der Peaks zu messen und die Schlüssel-Peaks auszuwählen, wodurch scAGDE sich darauf konzentrieren kann, die Chromatin-Zugänglichkeitsprofile jeder analysierten Zelle oder der wichtigsten Peak-Regionen hervorzuheben. Eine Dual-Decoder-Komponente rekonstruiert die Zelltopologie und schätzt die Datenverteilung, wodurch eine genaue Modellierung von scATAC-seq-Daten gewährleistet wird, während die Beziehung jeder Zelle zu ihren benachbarten Zellprofilen in der Darstellung erhalten bleibt. scAGDE definiert ein Dual-Cluster-Optimierungsziel, um die Erhaltung der Informationen über die Zellheterogenität in seiner Darstellung zu steuern.

Das Hauptziel von scAGDE ist es, die Analyse von hochdimensionalen, spärlichen scATAC-seq-Daten zu revolutionieren, indem niedrigdimensionale topologische Einbettungsdarstellungen erlernt werden. Die Methode umfasst die Verarbeitung von scATAC-seq-Daten mithilfe eines Chromatin-Zugänglichkeits-basierten Autoencoders und des Graph-Einbettungs-Lernverfahrens. Der Chromatin-Zugänglichkeits-basierte Autoencoder lernt umfassend die latente Darstellung der Rohdatenmatrix. Dieser Schritt umfasst die Auswahl signifikanter Peaks als Merkmale für die Zellcharakterisierung und die Konstruktion eines Zellgraphen basierend auf diesen Informationen. scAGDE integriert ein Graph Convolutional Network (GCN) [jee-see-en] als Encoder, das wichtige Informationen extrahiert und Zell-Zell-Beziehungen im Zellgraphen berücksichtigt, und wendet dann einen Bernoulli-basierten Decoder an, um die Wahrscheinlichkeit von Chromatin-Öffnungsereignissen zu modellieren.

Experimentelle Tests haben gezeigt, dass scAGDE bestehende scATAC-seq-Analysemethoden übertrifft, und zwar über mehrere synthetische Datensätze, die aus ATAC-seq-Daten von Knochenmark abgeleitet wurden, und mehrere reale Datensätze, die durch unterschiedliche Grade an Sparsity, Sequenzierungsplattformen und Artenvielfalt gekennzeichnet sind. Darüber hinaus unterstützt scAGDE effektiv Dimensionsreduktion, Visualisierung und Dropout-Ereigniskorrektur. Insbesondere identifizierte scAGDE durch die Imputation eines Maus-Vorderhirn-Datensatzes potenzielle zugängliche Peaks, die aufschlussreiche regulatorische Elemente enthalten, einschließlich entscheidender Transkriptionsfaktor-Bindungsmotive. Eine erweiterte Analyse in einem menschlichen Gehirn-Datensatz ergab, dass scAGDE erfolgreich Cis-regulatorische Element (CRE)-spezifische Zelltypen annotieren und gleichzeitig die funktionelle Vielfalt innerhalb glutamaterger Neuronen aufdecken konnte.

Die Forscher bewerteten die Clustering-Leistung von scAGDE auf simulierten Einzelzell-ATAC-seq-Datensätzen mit unterschiedlichen Datensatzcharakteristiken. Die Simulationsdatensätze variierten in Bezug auf Lesetiefe, Rauschpegel und Dropout-Rate, um verschiedene biologische Szenarien zu simulieren, und wurden mit sechs annotierten Zellpopulationen generiert, darunter hämatopoetische Stammzellen (HSC) [H-S-C], gemeinsame myeloische Vorläuferzellen (CMP) [C-M-P], erythroide Zellen (Ery) [E-R-Y], natürliche Killerzellen (NK) [N-K] und CD4 [C-D-4]- und CD8 [C-D-8]-Zellen.

Ein vergleichende Analyse mit anderen scATAC-seq- und scRNA-seq [ess-see-R-N-A-seq]-Methoden verdeutlicht die überlegene Leistung von scAGDE bei scATAC-seq-Daten. Darüber hinaus demonstrierte scAGDE eine außergewöhnliche Fähigkeit bei der Dimensionsreduktion, Visualisierung, Dropout-Korrektur und der Entdeckung von zelltypspezifischen Enhancern.

Zusammenfassend bietet scAGDE einen neuen Ansatz zur Analyse von Einzelzell-Chromatin-Zugänglichkeitsdaten mit potenziellen Anwendungen beim Verständnis von Zellidentität, Genregulation und Krankheitsmechanismen.

Haben Sie einen Fehler oder eine Ungenauigkeit festgestellt?

Wir werden Ihre Kommentare so schnell wie möglich berücksichtigen.