Тысячи новых генов скрыты в "темной материи" нашего генома. Недавнее исследование показывает, что некоторые из этих маленьких фрагментов ДНК могут производить минибелки, что может привести к новым методам лечения, включая вакцины и иммунотерапии для тяжелых опухолей мозга.
Предварительная версия, еще не прошедшая рецензирование, исходит от глобального консорциума, занимающегося открытием потенциальных новых генов. С момента завершения первого черновика Проекта генома человека в начале века ученые стремились расшифровать генетическую книгу жизни. В четырех генетических буквах — A, T, C и G — содержится важная информация, которая может помочь в борьбе с серьезными медицинскими проблемами, такими как рак.
Изначально Проект генома человека показал, что существует почти 30 000 генов, отвечающих за построение и поддержание человеческих тел, что составляет примерно треть ранее предсказанного числа. Теперь, почти через два десятилетия, технологии секвенирования ДНК достигли значительного прогресса, и ученые задаются вопросом: "Что мы пропустили?"
Новое исследование заполняет этот пробел, исследуя относительно неизученные области генома, известные как "некодирующие". Эти сегменты еще не были связаны с какими-либо белками. Объединив несколько существующих наборов данных, команда выявила тысячи потенциальных новых генов, отвечающих за производство примерно 3 000 минибелков.
Функциональность этих белков еще предстоит проверить, но предварительные исследования предполагают, что некоторые из них участвуют в смертельной детской опухоли мозга. Исследовательская группа предоставляет свои инструменты и результаты более широкой научной общественности для дальнейшего изучения. Их платформа выходит за рамки человеческой генетики, позволяя исследовать генетические схемы других организмов.
Несмотря на оставшиеся загадки, результаты "помогают предоставить более полную картину кодирующей части генома", сказал Ами Бхатт из Стэнфордского университета.
Секвенирование генома похоже на чтение книги без пунктуации. Хотя секвенирование стало более доступным благодаря снижению цен и увеличению эффективности, интерпретировать данные сложно. С момента Проекта генома человека ученые искали "слова" или гены, которые производят белки. Эти последовательности ДНК далее разбиваются на трибуквенные кодоны, каждый из которых кодирует определенную аминокислоту — строительный блок белка.
Когда ген активируется, он транскрибируется в матричную РНК. Эти молекулы переносят генетическую информацию от ДНК к рибосоме, фабрике по производству белков в клетке. Процесс можно представить как булочку, через которую проходит молекула РНК.
При первом определении гена ученые сосредотачиваются на открытых считывающих рамках. Они состоят из специфических последовательностей ДНК, которые указывают, где начинается и заканчивается ген. Эта структура сканирует геном в поисках потенциальных генов, которые затем проверяются в лабораторных экспериментах по множеству критериев. К ним относится способность производить белки определенного размера — более 100 аминокислот. Последовательности, которые соответствуют критериям, собираются в GENCODE, международную базу данных официально признанных генов.
Гены, кодирующие белки, привлекли наибольшее внимание, поскольку они помогают понять болезни и вдохновляют способы их лечения. Однако большая часть нашего генома является "некодирующей", то есть большие участки не производят никаких известных белков.
В течение многих лет эти куски ДНК считались мусором — недействительными остатками нашего эволюционного прошлого. Тем не менее, недавние исследования начали раскрывать скрытую ценность. Некоторые фрагменты регулируют, когда гены включаются или выключаются. Другие, такие как теломеры, защищают от деградации ДНК во время репликации и смягчают старение.
Тем не менее, догма заключалась в том, что эти последовательности не производят белки.
Недавние доказательства накапливаются о том, что некодирующие области действительно имеют сегменты, которые производят белки и влияют на здоровье.
Одно исследование обнаружило, что небольшой недостающий участок в предположительно некодирующих областях вызвал наследственные проблемы с кишечником у младенцев. У мышей, генетически модифицированных для имитации той же проблемы, восстановление фрагмента ДНК — еще не определенного как ген — уменьшило их симптомы. Результаты подчеркивают необходимость выходить за рамки известных генов, кодирующих белки, чтобы объяснять клинические находки, написали авторы.
Названные неканоническими открытыми рамками (ncORFs) или "возможно-гены", эти фрагменты появились в различных типах клеток человека и болезнях, что предполагает, что они имеют физиологические роли.
В 2022 году консорциум, стоящий за новым исследованием, начал изучать потенциальные функции, надеясь расширить наш генетический словарь. Вместо секвенирования генома они изучили наборы данных, которые следили за РНК, когда она превращалась в белки в рибосоме.
Метод захватывает фактический выход генома — даже очень короткие цепочки аминокислот, которые обычно считаются слишком маленькими для образования белков. Их поиск привел к каталогу из более чем 7 000 "возможно-генов" человека, некоторые из которых производили микробелки, которые в конечном итоге были обнаружены внутри раковых и сердечных клеток.
Но в целом, на тот момент "мы не сосредоточились на вопросах экспрессии или функциональности белков", написала команда. Поэтому они расширили свое сотрудничество в новом исследовании, пригласив специалистов по белковым наукам из более чем 20 учреждений по всему миру, чтобы понять "возможно-гены".
Они также включили несколько ресурсов, которые предоставляют базы данных белков из различных экспериментов — такие как Организация человека по протеомам и PeptideAtlas — и добавили данные из опубликованных экспериментов, использующих человеческую иммунную систему для обнаружения фрагментов белков.
В общей сложности команда проанализировала более 7 000 "возможно-генов" из различных клеток: здоровых, раковых и также бессмертных клеточных линий, выращенных в лаборатории. По меньшей мере четверть этих "возможно-генов" превратились в более 3 000 минибелков. Эти белки значительно меньше, чем нормальные белки, и имеют уникальный состав аминокислот. Они также, похоже, более настроены на части иммунной системы, что означает, что они могут потенциально помочь ученым разработать вакцины, аутоиммунные лечения или иммунотерапии.
Некоторые из этих вновь найденных минибелков могут вообще не иметь биологической роли. Однако исследование дает ученым новый способ интерпретировать потенциальные функции. Для контроля качества команда организовала каждую минибелок в разные уровни, основываясь на количестве доказательств из экспериментов, и интегрировала их в существующую базу данных для дальнейшего изучения.
Мы только начинаем исследовать темную материю нашего генома. Многие вопросы остаются.
"Уникальная способность нашего много-консорциумного сотрудничества заключается в способности разрабатывать консенсус по ключевым задачам," написала команда.
Например, некоторые эксперименты использовали раковые клетки, что означает, что определенные "возможно-гены" могут быть активны только в этих клетках — но не в нормальных. Должны ли они называться генами?
С этого момента глубокое обучение и другие методы ИИ могут помочь ускорить анализ. Хотя аннотация генов "исторически основана на ручной проверке" данных, написали авторы, ИИ может гораздо быстрее пройти через несколько наборов данных, пусть даже в качестве первого этапа поиска новых генов.
Сколько новых генов могут открыть ученые? "50 000 находятся в области возможного," сказал автор исследования Томас Мартинес.