Sebuah studi inovatif dari Universitas Hainan, yang diterbitkan di Tropical Plants, menampilkan integrasi kecerdasan buatan (AI) dalam genomika tanaman. Para peneliti menggunakan model bahasa besar (LLM) untuk memecahkan kode informasi genetik yang kompleks. Pendekatan ini menjanjikan kemajuan dalam pertanian, konservasi keanekaragaman hayati, dan ketahanan pangan.
Genomika tanaman telah lama ditantang oleh data genetik yang luas dan rumit. Metode tradisional berjuang dengan set data besar dan variasi genomik. LLM menawarkan cara baru untuk menganalisis genom tanaman dengan memanfaatkan kesamaan antara urutan genetik dan bahasa manusia.
Penelitian ini berfokus pada adaptasi LLM untuk memahami karakteristik unik genom tanaman. Tidak seperti bahasa manusia dengan aturan tata bahasa, genom tanaman beroperasi di bawah aturan biologis yang mengatur ekspresi gen. Para peneliti melatih LLM pada set data genomik tanaman yang luas untuk mengenali pola dan memprediksi fungsi gen.
Proses pelatihan melibatkan pra-pelatihan dan penyetelan halus. Pra-pelatihan melibatkan LLM yang memproses data genomik tanaman yang tidak beranotasi untuk mengidentifikasi kesamaan. Penyetelan halus menggunakan set data beranotasi untuk menyempurnakan kemampuan prediktif model untuk fungsi biologis.
Studi ini berhasil menerapkan arsitektur LLM yang berbeda yang disesuaikan untuk genomika tanaman. Ini termasuk model hanya encoder seperti DNABERT, model hanya decoder seperti DNAGPT, dan model encoder-decoder seperti ENBED. Setiap model unggul dalam menangani data genomik, mulai dari mengidentifikasi enhancer dan promoter hingga memprediksi pola ekspresi gen.
Model khusus tanaman seperti AgroNT dan FloraBERT menunjukkan peningkatan kinerja dalam menganotasi genom tanaman. Dengan berfokus pada karakteristik linguistik urutan DNA, model ini mengungkap kompleksitas regulasi gen. Ini memungkinkan penerapan informasi genomik dalam konteks pertanian praktis.
Studi ini mengakui kesenjangan dalam arsitektur LLM yang ada. Model saat ini sebagian besar dilatih pada set data hewan atau mikroba, yang kurang memiliki anotasi genomik komprehensif untuk spesies tanaman. Para penulis menganjurkan LLM yang berfokus pada tanaman yang menggabungkan beragam set data genomik, terutama dari spesies yang kurang dipelajari seperti tanaman tropis.
AI dan LLM dalam genomika tanaman dapat mempercepat strategi peningkatan tanaman. Ini dapat menyebabkan adaptasi yang lebih baik dari spesies tanaman terhadap perubahan kondisi lingkungan. Pada akhirnya, ini meningkatkan upaya konservasi keanekaragaman hayati, yang sangat penting untuk ketahanan pangan global.
Penelitian ini menyoroti potensi transformatif AI dalam genomika tanaman. Dengan menjembatani linguistik komputasi dan analisis genetik, para peneliti dapat merevolusi pemahaman kita tentang biologi tanaman. Ini menjanjikan untuk meningkatkan produktivitas pertanian dan mendorong praktik berkelanjutan.
Upaya masa depan akan menyempurnakan arsitektur LLM dan memperluas set data pelatihan. Ini termasuk berbagai spesies tanaman yang lebih luas dan menyelidiki aplikasi pertanian dunia nyata. Studi penting ini meletakkan dasar bagi era baru dalam penelitian genomik tanaman, dengan AI memainkan peran sentral.