Des chercheurs ont présenté scAGDE [ess-see-ay-jee-dee-ee], une nouvelle méthode computationnelle pour analyser les données ATAC-seq [A-T-A-C-seq] unicellulaires. L'ATAC-seq est une technique utilisée pour identifier les régions de chromatine ouverte [kroh-muh-tin], ce qui indique où l'ADN est accessible pour l'expression des gènes. L'ATAC-seq unicellulaire permet aux scientifiques d'examiner cette accessibilité dans des cellules individuelles, offrant des aperçus sur l'identité et la fonction des cellules.
scAGDE, abréviation de single-cell chromatin accessibility model-based deep graph embedded learning method, est conçu pour traiter efficacement les données ATAC-seq unicellulaires éparses. La méthode reconstruit à la fois les profils d'accessibilité de la chromatine et le graphe voisin à partir de la même représentation cellulaire de faible dimension. Cela permet à scAGDE de conserver les profils d'accessibilité de la chromatine des cellules analysées et de leurs cellules voisines, ainsi que les relations d'interaction cellule-cellule entre elles.
Le modèle utilise un autoencodeur [aw-toh-en-koh-der] basé sur l'accessibilité de la chromatine pour mesurer l'importance des pics et sélectionner les pics clés, permettant à scAGDE de se concentrer sur la mise en évidence des profils d'accessibilité de la chromatine de chaque cellule analysée ou des régions de pics les plus critiques. Un composant à double décodeur reconstruit la topologie cellulaire et estime la distribution des données, assurant une modélisation précise des données scATAC-seq tout en conservant la relation de chaque cellule avec ses profils cellulaires voisins dans la représentation. scAGDE définit un objectif d'optimisation de cluster double pour guider la préservation des informations sur l'hétérogénéité cellulaire dans sa représentation.
L'objectif principal de scAGDE est de révolutionner l'analyse des données scATAC-seq éparses de haute dimension en apprenant des représentations d'intégration topologique de faible dimension. La méthode implique le traitement des données scATAC-seq à l'aide d'un autoencodeur basé sur l'accessibilité de la chromatine et la procédure d'apprentissage d'intégration de graphe. L'autoencodeur basé sur l'accessibilité de la chromatine apprend de manière exhaustive la représentation latente de la matrice de données brutes. Cette étape implique la sélection de pics significatifs comme caractéristiques pour la caractérisation des cellules et la construction d'un graphe cellulaire basé sur ces informations. scAGDE intègre un réseau convolutif de graphes (GCN) [jee-see-en] comme encodeur, qui extrait des informations cruciales et prend en compte les relations cellule-cellule dans le graphe cellulaire, puis applique un décodeur basé sur Bernoulli pour modéliser la probabilité des événements d'ouverture de la chromatine.
Des tests expérimentaux ont démontré que scAGDE surpasse les méthodes d'analyse scATAC-seq existantes sur plusieurs ensembles de données synthétiques dérivés des données ATAC-seq de la moelle osseuse et plusieurs ensembles de données du monde réel caractérisés par différents degrés de parcimonie, de plateformes de séquençage et de diversité des espèces. De plus, scAGDE prend efficacement en charge la réduction de dimensionnalité, la visualisation et la correction des événements de perte. Plus précisément, grâce à l'imputation d'un ensemble de données de cerveau antérieur de souris, scAGDE a identifié des pics accessibles potentiels qui contiennent des éléments régulateurs perspicaces, y compris des motifs de liaison de facteurs de transcription cruciaux. Une analyse étendue dans un ensemble de données de cerveau humain a révélé que scAGDE pouvait annoter avec succès les types de cellules spécifiés par l'élément cis-régulateur (CRE) tout en découvrant la diversité fonctionnelle au sein des neurones glutamatergiques.
Les chercheurs ont évalué les performances de clustering de scAGDE sur des ensembles de données ATAC-seq unicellulaires simulés avec des caractéristiques d'ensemble de données variables. Les ensembles de données de simulation ont varié en termes de profondeur de lecture, de niveau de bruit et de taux de perte pour simuler différents scénarios biologiques et ont été générés avec six populations cellulaires annotées, y compris les cellules souches hématopoïétiques (HSC) [H-S-C], les cellules progénitrices myéloïdes communes (CMP) [C-M-P], les cellules érythroïdes (Ery) [E-R-Y], les cellules tueuses naturelles (NK) [N-K] et les cellules CD4 [C-D-4] et CD8 [C-D-8].
Une analyse comparative avec d'autres méthodologies scATAC-seq et scRNA-seq [ess-see-R-N-A-seq] élucide les performances supérieures de scAGDE sur les données scATAC-seq. De plus, scAGDE a démontré une capacité exceptionnelle dans la réduction de dimensionnalité, la visualisation, la correction des pertes et la découverte d'amplificateurs spécifiques au type de cellule.
En résumé, scAGDE offre une nouvelle approche pour analyser les données d'accessibilité de la chromatine unicellulaire, avec des applications potentielles dans la compréhension de l'identité cellulaire, de la régulation des gènes et des mécanismes de la maladie.