Inteligência artificial desbloqueia a genômica de plantas: estudo da Universidade de Hainan

Editado por: Vera Mo

Um estudo inovador da Universidade de Hainan, publicado na Tropical Plants, mostra a integração da inteligência artificial (IA) na genômica de plantas. Pesquisadores estão usando modelos de linguagem grandes (LLMs) para decodificar informações genéticas complexas. Essa abordagem promete avanços na agricultura, conservação da biodiversidade e segurança alimentar.

A genômica de plantas tem sido desafiada há muito tempo por dados genéticos vastos e intrincados. Os métodos tradicionais lutam com grandes conjuntos de dados e variações genômicas. Os LLMs oferecem uma nova maneira de analisar genomas de plantas, aproveitando paralelos entre sequências genéticas e linguagem humana.

A pesquisa se concentra na adaptação de LLMs para entender as características únicas dos genomas de plantas. Ao contrário das línguas humanas com regras gramaticais, os genomas de plantas operam sob regras biológicas que governam a expressão gênica. Os pesquisadores treinam LLMs em extensos conjuntos de dados genômicos de plantas para reconhecer padrões e prever funções de genes.

O processo de treinamento envolve pré-treinamento e ajuste fino. O pré-treinamento envolve LLMs processando dados genômicos de plantas não anotados para identificar semelhanças. O ajuste fino usa conjuntos de dados anotados para refinar as capacidades preditivas do modelo para funções biológicas.

O estudo aplicou com sucesso diferentes arquiteturas LLM adaptadas para a genômica de plantas. Estes incluem modelos somente codificador como DNABERT, modelos somente decodificador como DNAGPT e modelos codificador-decodificador como ENBED. Cada modelo se destaca no manuseio de dados genômicos, desde a identificação de intensificadores e promotores até a previsão de padrões de expressão gênica.

Modelos específicos de plantas como AgroNT e FloraBERT demonstraram desempenho aprimorado na anotação de genomas de plantas. Ao se concentrarem nas características linguísticas das sequências de DNA, esses modelos desvendam as complexidades da regulação gênica. Isso permite a aplicação de informações genômicas em contextos agrícolas práticos.

O estudo reconhece lacunas nas arquiteturas LLM existentes. Os modelos atuais são predominantemente treinados em conjuntos de dados de animais ou microbianos, carecendo de anotações genômicas abrangentes para espécies de plantas. Os autores defendem LLMs focados em plantas que incorporam diversos conjuntos de dados genômicos, especialmente de espécies menos estudadas, como plantas tropicais.

IA e LLMs na genômica de plantas podem acelerar estratégias de melhoramento de culturas. Isso pode levar a uma melhor adaptação de espécies de plantas às mudanças nas condições ambientais. Em última análise, isso aprimora os esforços de conservação da biodiversidade, cruciais para a segurança alimentar global.

Esta pesquisa destaca o potencial transformador da IA na genômica de plantas. Ao unir a linguística computacional e a análise genética, os pesquisadores podem revolucionar nossa compreensão da biologia das plantas. Isso promete melhorar a produtividade agrícola e promover práticas sustentáveis.

Esforços futuros refinarão as arquiteturas LLM e expandirão os conjuntos de dados de treinamento. Isso inclui uma gama mais ampla de espécies de plantas e a investigação de aplicações agrícolas do mundo real. Este estudo fundamental prepara o terreno para uma nova era na pesquisa genômica de plantas, com a IA desempenhando um papel central.

Fontes

  • Scienmag: Latest Science and Health News

Encontrou um erro ou imprecisão?

Vamos considerar seus comentários assim que possível.