Mô hình ChatGPT tiết lộ bản chất Fractal của ngôn ngữ loài người

Chỉnh sửa bởi: Vera Mo

Các nhà ngôn ngữ học tính toán đã khám phá nhiều phương pháp để mô hình hóa ngôn ngữ trong sáu thập kỷ qua, gần đây đã tìm thấy các câu trả lời tiềm năng bằng cách sử dụng Mô hình ngôn ngữ lớn (LLM) như ChatGPT. Các phương pháp tiếp cận ban đầu sử dụng ngữ pháp hình thức của Noam Chomsky và ngữ nghĩa cứng nhắc, vốn gặp khó khăn với bản chất trôi chảy của ý nghĩa. Những năm 1990 chứng kiến sự ra đời của các mô hình thống kê dựa trên n-gram, mô tả ngôn ngữ thông qua xác suất đồng xuất hiện của các từ. Ví dụ: "io vedo" [tôi thấy] thường xuyên hơn "io casa" [tôi nhà]. Các mô hình này tự động hóa phân tích ngôn ngữ, nhưng giảm ý nghĩa thành sự gần gũi của từ. Sự ra đời của LLM, dựa trên mạng lưới biến đổi, đánh dấu một cuộc cách mạng. LLM học bằng cách dự đoán từ tiếp theo trong một câu, một quá trình được lặp lại trong toàn bộ văn bản web. Điều này cho phép họ dự đoán các từ và tạo ra các phần tiếp theo của văn bản. LLM đã tạo điều kiện thuận lợi cho việc phân tích thống kê quy mô lớn về tần suất từ, tiết lộ bản chất fractal của ngôn ngữ. Giống như fractal, ngôn ngữ thể hiện tính tự tương đồng ở các quy mô khác nhau, với các thuộc tính như tính mạch lạc xuất hiện trong các từ, câu và toàn bộ văn bản. Các tương quan tầm xa kết nối các từ hoặc đoạn văn ở xa nhau về mặt ngữ nghĩa. LLM thành công nhờ khả năng khái quát hóa thông tin cục bộ và mô hình hóa kiến thức ngầm định, như được định nghĩa bởi Michael Polanyi, thu được thông qua kinh nghiệm. Các nhà ngôn ngữ học hiện nhận ra ngôn ngữ loài người là một hiện tượng hỗn loạn, phức tạp, với LLM đóng vai trò là công cụ để nghiên cứu sự phức tạp của nó.

Bạn có phát hiện lỗi hoặc sai sót không?

Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.