Investigadores han presentado scAGDE [ess-see-ay-jee-dee-ee], un nuevo método computacional para analizar datos de ATAC-seq [A-T-A-C-seq] unicelular. ATAC-seq es una técnica utilizada para identificar regiones de cromatina abierta [kroh-muh-tin], lo que indica dónde el ADN es accesible para la expresión génica. ATAC-seq unicelular permite a los científicos examinar esta accesibilidad en células individuales, proporcionando información sobre la identidad y función celular.
scAGDE, abreviatura de single-cell chromatin accessibility model-based deep graph embedded learning method, está diseñado para procesar eficientemente datos de ATAC-seq unicelular dispersos. El método reconstruye tanto los perfiles de accesibilidad de la cromatina como el gráfico vecino a partir de la misma representación celular de baja dimensión. Esto permite a scAGDE retener los perfiles de accesibilidad de la cromatina de las células analizadas y sus células vecinas, así como las relaciones de interacción célula-célula entre ellas.
El modelo utiliza un autoencoder [aw-toh-en-koh-der] basado en la accesibilidad de la cromatina para medir la importancia de los picos y seleccionar los picos clave, lo que permite a scAGDE centrarse en resaltar los perfiles de accesibilidad de la cromatina de cada célula analizada o las regiones de picos más críticas. Un componente de doble decodificador reconstruye la topología celular y estima la distribución de datos, asegurando un modelado preciso de los datos de scATAC-seq al tiempo que conserva la relación de cada célula con sus perfiles celulares vecinos en la representación. scAGDE define un objetivo de optimización de clúster dual para guiar la preservación de la información sobre la heterogeneidad celular en su representación.
El objetivo principal de scAGDE es revolucionar el análisis de datos de scATAC-seq dispersos de alta dimensión mediante el aprendizaje de representaciones de incrustación topológica de baja dimensión. El método implica el procesamiento de datos de scATAC-seq utilizando un autoencoder basado en la accesibilidad de la cromatina y el procedimiento de aprendizaje de incrustación de gráficos. El autoencoder basado en la accesibilidad de la cromatina aprende exhaustivamente la representación latente de la matriz de datos sin procesar. Este paso implica la selección de picos significativos como características para la caracterización celular y la construcción de un gráfico celular basado en esta información. scAGDE integra una Red Convolucional de Gráficos (GCN) [jee-see-en] como un codificador, que extrae información crucial y considera las relaciones célula-célula en el gráfico celular, y luego aplica un decodificador basado en Bernoulli para modelar la probabilidad de eventos de apertura de la cromatina.
Las pruebas experimentales han demostrado que scAGDE supera los métodos de análisis de scATAC-seq existentes en múltiples conjuntos de datos sintéticos derivados de datos de ATAC-seq de médula ósea y varios conjuntos de datos del mundo real caracterizados por diferentes grados de dispersión, plataformas de secuenciación y diversidad de especies. Además, scAGDE admite eficazmente la reducción de dimensionalidad, la visualización y la corrección de eventos de abandono. Específicamente, a través de la imputación de un conjunto de datos de prosencéfalo de ratón, scAGDE identificó picos accesibles potenciales que contienen elementos reguladores perspicaces, incluidos motivos cruciales de unión a factores de transcripción. Un análisis extendido en un conjunto de datos de cerebro humano reveló que scAGDE podría anotar con éxito tipos de células especificados por elementos cis-reguladores (CRE) al tiempo que descubre la diversidad funcional dentro de las neuronas glutamatérgicas.
Los investigadores evaluaron el rendimiento de la agrupación en clústeres de scAGDE en conjuntos de datos de ATAC-seq unicelular simulados con características de conjunto de datos variables. Los conjuntos de datos de simulación variaron en términos de profundidad de lectura, nivel de ruido y tasa de abandono para simular diferentes escenarios biológicos y se generaron con seis poblaciones celulares anotadas, incluidas células madre hematopoyéticas (HSC) [H-S-C], células progenitoras mieloides comunes (CMP) [C-M-P], células eritroides (Ery) [E-R-Y], células asesinas naturales (NK) [N-K] y células CD4 [C-D-4] y CD8 [C-D-8].
Un análisis comparativo con otras metodologías de scATAC-seq y scRNA-seq [ess-see-R-N-A-seq] dilucida el rendimiento superior de scAGDE en datos de scATAC-seq. Además, scAGDE demostró una capacidad excepcional en la reducción de dimensionalidad, la visualización, la corrección de abandono y el descubrimiento de potenciadores específicos del tipo de célula.
En resumen, scAGDE ofrece un nuevo enfoque para analizar datos de accesibilidad de cromatina unicelular, con aplicaciones potenciales en la comprensión de la identidad celular, la regulación génica y los mecanismos de la enfermedad.