Sztuczna inteligencja odblokowuje genomikę roślin: badanie Uniwersytetu Hainan

Edytowane przez: Vera Mo

Przełomowe badanie Uniwersytetu Hainan, opublikowane w Tropical Plants, prezentuje integrację sztucznej inteligencji (AI) w genomice roślin. Naukowcy wykorzystują duże modele językowe (LLM) do dekodowania złożonych informacji genetycznych. To podejście obiecuje postęp w rolnictwie, ochronie bioróżnorodności i bezpieczeństwie żywnościowym.

Genomika roślin od dawna boryka się z wyzwaniem ogromnych i skomplikowanych danych genetycznych. Tradycyjne metody mają trudności z dużymi zbiorami danych i zmiennością genomową. LLM oferują nowy sposób analizy genomów roślin, wykorzystując podobieństwa między sekwencjami genetycznymi a językiem ludzkim.

Badania koncentrują się na dostosowaniu LLM do zrozumienia unikalnych cech genomów roślin. W przeciwieństwie do języków ludzkich z regułami gramatycznymi, genomy roślin działają zgodnie z biologicznymi zasadami regulującymi ekspresję genów. Naukowcy trenują LLM na obszernych zbiorach danych genomowych roślin, aby rozpoznawać wzorce i przewidywać funkcje genów.

Proces szkolenia obejmuje wstępne szkolenie i dostrajanie. Wstępne szkolenie obejmuje przetwarzanie przez LLM nieannotowanych danych genomowych roślin w celu identyfikacji podobieństw. Dostrajanie wykorzystuje anotowane zbiory danych, aby udoskonalić zdolności predykcyjne modelu dla funkcji biologicznych.

W badaniu z powodzeniem zastosowano różne architektury LLM dostosowane do genomiki roślin. Obejmują one modele tylko z enkoderem, takie jak DNABERT, modele tylko z dekoderem, takie jak DNAGPT, oraz modele enkoder-dekoder, takie jak ENBED. Każdy model doskonale radzi sobie z danymi genomowymi, od identyfikacji wzmacniaczy i promotorów po przewidywanie wzorców ekspresji genów.

Modele specyficzne dla roślin, takie jak AgroNT i FloraBERT, wykazały lepszą wydajność w adnotowaniu genomów roślin. Koncentrując się na językowych cechach sekwencji DNA, modele te odkrywają złożoność regulacji genów. Umożliwia to zastosowanie informacji genomowych w praktycznych kontekstach rolniczych.

Badanie potwierdza luki w istniejących architekturach LLM. Obecne modele są szkolone głównie na zbiorach danych zwierzęcych lub mikrobiologicznych, którym brakuje kompleksowych adnotacji genomowych dla gatunków roślin. Autorzy opowiadają się za LLM zorientowanymi na rośliny, które uwzględniają różnorodne zbiory danych genomowych, zwłaszcza z mniej zbadanych gatunków, takich jak rośliny tropikalne.

AI i LLM w genomice roślin mogą przyspieszyć strategie ulepszania upraw. Może to prowadzić do lepszego przystosowania się gatunków roślin do zmieniających się warunków środowiskowych. Ostatecznie zwiększa to wysiłki na rzecz ochrony bioróżnorodności, które są kluczowe dla globalnego bezpieczeństwa żywnościowego.

Badanie to podkreśla transformacyjny potencjał AI w genomice roślin. Łącząc lingwistykę obliczeniową i analizę genetyczną, naukowcy mogą zrewolucjonizować nasze rozumienie biologii roślin. Obiecuje to zwiększenie produktywności rolnictwa i wspieranie zrównoważonych praktyk.

Przyszłe wysiłki udoskonalą architektury LLM i rozszerzą zbiory danych szkoleniowych. Obejmuje to szerszy zakres gatunków roślin i badanie rzeczywistych zastosowań rolniczych. To kluczowe badanie stanowi podstawę nowej ery w badaniach genomowych roślin, w której AI odgrywa centralną rolę.

Źródła

  • Scienmag: Latest Science and Health News

Czy znalazłeś błąd lub niedokładność?

Rozważymy Twoje uwagi tak szybko, jak to możliwe.