Ahli bahasa komputasi telah menjelajahi berbagai metode untuk memodelkan bahasa selama enam dekade, baru-baru ini menemukan jawaban potensial menggunakan Model Bahasa Besar (LLM) seperti ChatGPT. Pendekatan awal menggunakan tata bahasa formal Noam Chomsky dan semantik yang kaku, yang berjuang dengan sifat makna yang cair. Tahun 1990-an menyaksikan diperkenalkannya model statistik berdasarkan n-gram, yang menggambarkan bahasa melalui probabilitas ko-kemunculan kata. Misalnya, "io vedo" [saya melihat] lebih sering daripada "io casa" [saya rumah]. Model-model ini mengotomatiskan analisis linguistik tetapi mengurangi makna menjadi kedekatan kata. Kemunculan LLM, berdasarkan jaringan transformer, menandai sebuah revolusi. LLM belajar dengan memprediksi kata berikutnya dalam sebuah kalimat, sebuah proses yang diulang di seluruh teks web. Ini memungkinkan mereka untuk memprediksi kata dan menghasilkan kelanjutan teks. LLM telah memfasilitasi analisis statistik skala besar dari frekuensi kata, mengungkapkan sifat fraktal bahasa. Seperti fraktal, bahasa menunjukkan kemiripan diri pada skala yang berbeda, dengan properti seperti koherensi muncul dalam kata, kalimat, dan seluruh teks. Korelasi jarak jauh menghubungkan kata atau paragraf yang jauh secara semantik. LLM berhasil karena kemampuannya untuk menggeneralisasi informasi lokal dan memodelkan pengetahuan diam-diam, seperti yang didefinisikan oleh Michael Polanyi, yang diperoleh melalui pengalaman. Ahli bahasa sekarang mengakui bahasa manusia sebagai fenomena yang kacau dan kompleks, dengan LLM berfungsi sebagai alat untuk mempelajari seluk-beluknya.
Model ChatGPT Mengungkap Sifat Fraktal Bahasa Manusia
Diedit oleh: Vera Mo
Baca lebih banyak berita tentang topik ini:
Apakah Anda menemukan kesalahan atau ketidakakuratan?
Kami akan mempertimbangkan komentar Anda sesegera mungkin.