scAGDE: Новый метод анализа данных о доступности хроматина отдельных клеток

Исследователи представили scAGDE [эсс-си-эй-джи-ди-и], новый вычислительный метод для анализа данных ATAC-seq [Эй-Ти-Эй-Си-сек] отдельных клеток. ATAC-seq - это метод, используемый для идентификации областей открытого хроматина [кроу-ма-тин], который указывает, где ДНК доступна для экспрессии генов. ATAC-seq отдельных клеток позволяет ученым исследовать эту доступность в отдельных клетках, предоставляя информацию об идентичности и функциях клеток.

scAGDE, сокращение от single-cell chromatin accessibility model-based deep graph embedded learning method (метод глубокого обучения со встроенным графом на основе модели доступности хроматина отдельных клеток), предназначен для эффективной обработки разреженных данных ATAC-seq отдельных клеток. Метод реконструирует как профили доступности хроматина, так и соседний граф из одного и того же низкоразмерного представления клеток. Это позволяет scAGDE сохранять профили доступности хроматина анализируемых клеток и их соседних клеток, а также взаимосвязи между клетками.

В модели используется автокодировщик [о-тоу-эн-коу-дер] на основе доступности хроматина для измерения важности пиков и выбора ключевых пиков, что позволяет scAGDE сосредоточиться на выделении профилей доступности хроматина каждой анализируемой клетки или наиболее важных пиковых областей. Компонент двойного декодера реконструирует топологию клеток и оценивает распределение данных, обеспечивая точное моделирование данных scATAC-seq при сохранении взаимосвязи каждой клетки с профилями соседних клеток в представлении. scAGDE определяет цель двойной кластерной оптимизации для управления сохранением информации о гетерогенности клеток в ее представлении.

Основная цель scAGDE - революционизировать анализ многомерных разреженных данных scATAC-seq путем изучения низкоразмерных топологических представлений внедрения. Метод включает в себя обработку данных scATAC-seq с использованием автокодировщика на основе доступности хроматина и процедуры обучения внедрению графов. Автокодировщик на основе доступности хроматина всесторонне изучает скрытое представление матрицы необработанных данных. Этот шаг включает в себя выбор значимых пиков в качестве признаков для характеристики клеток и построение клеточного графа на основе этой информации. scAGDE интегрирует графовую сверточную сеть (GCN) [джи-си-эн] в качестве кодировщика, которая извлекает важную информацию и учитывает взаимосвязи между клетками в клеточном графе, а затем применяет декодер на основе Бернулли для моделирования вероятности событий открытия хроматина.

Экспериментальные тесты показали, что scAGDE превосходит существующие методы анализа scATAC-seq на нескольких синтетических наборах данных, полученных из данных ATAC-seq костного мозга, и нескольких реальных наборах данных, характеризующихся различной степенью разреженности, платформами секвенирования и разнообразием видов. Кроме того, scAGDE эффективно поддерживает снижение размерности, визуализацию и коррекцию событий выпадения. В частности, благодаря вменению набора данных переднего мозга мыши scAGDE идентифицировал потенциальные доступные пики, которые содержат содержательные регуляторные элементы, включая важные мотивы связывания факторов транскрипции. Расширенный анализ на наборе данных мозга человека показал, что scAGDE может успешно аннотировать типы клеток, специфичные для цис-регуляторного элемента (CRE), одновременно выявляя функциональное разнообразие в глутаматергических нейронах.

Исследователи оценили производительность кластеризации scAGDE на смоделированных наборах данных ATAC-seq отдельных клеток с различными характеристиками набора данных. Наборы данных моделирования варьировались с точки зрения глубины считывания, уровня шума и скорости выпадения для имитации различных биологических сценариев и были сгенерированы с шестью аннотированными популяциями клеток, включая гемопоэтические стволовые клетки (HSC) [Эйч-Эс-Си], общие миелоидные клетки-предшественники (CMP) [Си-Эм-Пи], эритроидные клетки (Ery) [И-Эр-Уай], естественные клетки-киллеры (NK) [Эн-Кей] и клетки CD4 [Си-Ди-4] и CD8 [Си-Ди-8].

Сравнительный анализ с другими методологиями scATAC-seq и scRNA-seq [эсс-си-Ар-Эн-Эй-сек] проясняет превосходную производительность scAGDE на данных scATAC-seq. Кроме того, scAGDE продемонстрировал исключительные способности в снижении размерности, визуализации, коррекции выпадения и обнаружении энхансеров, специфичных для типа клеток.

Таким образом, scAGDE предлагает новый подход к анализу данных о доступности хроматина отдельных клеток с потенциальными приложениями в понимании идентичности клеток, регуляции генов и механизмов заболеваний.

Вы нашли ошибку или неточность?

Мы учтем ваши комментарии как можно скорее.