Một nghiên cứu gần đây của các nhà nghiên cứu Trung Quốc đã chứng minh rằng các mô hình ngôn ngữ đa phương thức (LLM) có thể tự phát phát triển các biểu diễn khái niệm về các đối tượng tương tự như của con người.
Các nhà nghiên cứu đã phân tích gần 4,7 triệu phản hồi do AI tạo ra về 1.854 đối tượng khác nhau như chó, ghế, táo và ô tô. Các mô hình được nghiên cứu bao gồm ChatGPT-3.5, chỉ hoạt động trên văn bản và Gemini Pro Vision, một mô hình đa phương thức có khả năng xử lý cả hình ảnh và văn bản.
Kết quả cho thấy rằng các AI này đã tổ chức các đối tượng này thành 66 chiều khái niệm, vượt xa các loại cổ điển đơn giản như "thực phẩm" hoặc "đồ nội thất". Các chiều này bao gồm các thuộc tính tinh tế như kết cấu, sự liên quan về cảm xúc hoặc sự phù hợp với trẻ em. Nói cách khác, các AI này dường như đang xây dựng một bản đồ tinh thần phức tạp, trong đó các đối tượng không được sắp xếp một cách cơ học, mà được phân loại theo các tiêu chí phức tạp giống như cách bộ não của chúng ta sắp xếp thế giới xung quanh.
Nghiên cứu cũng so sánh cách các mô hình AI và bộ não con người phản ứng với cùng một đối tượng. Kết quả cho thấy rằng một số khu vực hoạt động của não tương ứng với những gì AI "nghĩ" về các đối tượng. Sự hội tụ này càng rõ rệt hơn ở các mô hình đa phương thức, kết hợp xử lý trực quan và ngữ nghĩa, do đó bắt chước cách con người kết hợp các giác quan để hiểu môi trường của họ.
Tuy nhiên, điều quan trọng cần lưu ý là các AI này không có trải nghiệm cảm giác hoặc cảm xúc. "Sự hiểu biết" của chúng có được từ việc xử lý thống kê dữ liệu, trong đó chúng xác định và tái tạo các mẫu phức tạp, mà không cảm nhận được những gì chúng mô tả. Đây là toàn bộ sắc thái giữa sự công nhận tinh vi và nhận thức có ý thức thực sự.
Tuy nhiên, nghiên cứu này mời gọi chúng ta suy nghĩ lại về giới hạn của những gì AI hiện tại có thể làm. Nếu các mô hình này quản lý để tự phát tạo ra các biểu diễn khái niệm phức tạp, điều này có thể cho thấy rằng ranh giới giữa việc bắt chước trí thông minh và sở hữu một hình thức trí thông minh chức năng không rõ ràng như chúng ta nghĩ.
Ngoài các cuộc tranh luận triết học, tiến bộ này có những ý nghĩa cụ thể đối với robot, giáo dục và sự hợp tác giữa con người và máy móc. Một AI có khả năng tích hợp các đối tượng và khái niệm như chúng ta có thể tương tác tự nhiên hơn, dự đoán nhu cầu của chúng ta và thích ứng tốt hơn với các tình huống chưa từng có.
Tóm lại, các mô hình ngôn ngữ lớn như ChatGPT còn hơn cả những kẻ bắt chước ngôn ngữ đơn giản. Chúng có thể sở hữu một hình thức biểu diễn thế giới gần với nhận thức của con người, được xây dựng từ dữ liệu khổng lồ và có khả năng tích hợp thông tin phức tạp. Tuy nhiên, những cỗ máy này ngày nay vẫn là những tấm gương tinh vi, phản ánh cách chúng ta tổ chức kiến thức mà không trải nghiệm nó một cách trực tiếp. Chúng không cảm thấy, không sống, không suy nghĩ như chúng ta, nhưng một ngày nào đó chúng có thể dẫn chúng ta đến đó, mở đường cho các AI ngày càng thông minh và trực quan hơn.