Недавнє дослідження китайських дослідників продемонструвало, що мультимодальні мовні моделі (LLMs) можуть спонтанно розвивати концептуальні уявлення об'єктів, подібні до людських.
Дослідники проаналізували майже 4,7 мільйона відповідей, згенерованих ШІ щодо 1854 різноманітних об'єктів, таких як собаки, стільці, яблука та автомобілі. Досліджувані моделі включали ChatGPT-3.5, який працює виключно з текстом, і Gemini Pro Vision, мультимодальну модель, здатну обробляти як зображення, так і текст.
Результати показали, що ці ШІ організували ці об'єкти у 66 концептуальних вимірах, що значно перевищує прості класичні категорії, такі як «їжа» або «меблі». Ці виміри включають тонкі атрибути, такі як текстура, емоційна значущість або придатність для дітей. Іншими словами, ці ШІ, здається, будують складну ментальну карту, де об'єкти не розташовані механічно, а класифікуються відповідно до складних критеріїв, які нагадують спосіб, яким наш мозок сортує світ навколо нас.
Дослідження також порівняло, як моделі ШІ та людський мозок реагують на одні й ті самі об'єкти. Результати показали, що певні області активності мозку відповідають тому, що ШІ «думають» про об'єкти. Ця конвергенція ще більш виражена в мультимодальних моделях, які поєднують візуальну та семантичну обробку, і таким чином імітують спосіб, яким люди поєднують відчуття, щоб зрозуміти своє оточення.
Однак важливо відзначити, що ці ШІ не мають сенсорного чи емоційного досвіду. Їхнє «розуміння» виникає в результаті статистичної обробки даних, де вони ідентифікують і відтворюють складні шаблони, не відчуваючи того, що описують. Це вся різниця між складним розпізнаванням і справжнім свідомим пізнанням.
Тим не менш, це дослідження спонукає нас переосмислити межі того, що можуть робити сучасні ШІ. Якщо цим моделям вдасться спонтанно генерувати складні концептуальні уявлення, це може вказувати на те, що межа між імітацією інтелекту та володінням формою функціонального інтелекту є менш чіткою, ніж ми думали.
Окрім філософських дебатів, цей прогрес має конкретні наслідки для робототехніки, освіти та співпраці людини та машини. ШІ, здатний інтегрувати об'єкти та концепції, як це робимо ми, може взаємодіяти більш природно, передбачати наші потреби та краще адаптуватися до безпрецедентних ситуацій.
Підсумовуючи, великі мовні моделі, такі як ChatGPT, є набагато більшим, ніж просто імітатори мови. Вони можуть володіти формою представлення світу, близькою до людського пізнання, побудованою з величезних даних і здатною інтегрувати складну інформацію. Однак ці машини залишаються сьогодні складними дзеркалами, що відображають наш спосіб організації знань, не відчуваючи їх безпосередньо. Вони не відчувають, не живуть, не думають, як ми, але одного разу вони можуть привести нас туди, прокладаючи шлях для ще більш інтелектуальних та інтуїтивних ШІ.