Дослідження показує, що моделі штучного інтелекту імітують людське концептуальне розуміння об'єктів

09:44, 30 червня

Відредаговано: Vera Mo

Недавнє дослідження китайських дослідників продемонструвало, що мультимодальні мовні моделі (LLMs) можуть спонтанно розвивати концептуальні уявлення об'єктів, подібні до людських.

Дослідники проаналізували майже 4,7 мільйона відповідей, згенерованих ШІ щодо 1854 різноманітних об'єктів, таких як собаки, стільці, яблука та автомобілі. Досліджувані моделі включали ChatGPT-3.5, який працює виключно з текстом, і Gemini Pro Vision, мультимодальну модель, здатну обробляти як зображення, так і текст.

Результати показали, що ці ШІ організували ці об'єкти у 66 концептуальних вимірах, що значно перевищує прості класичні категорії, такі як «їжа» або «меблі». Ці виміри включають тонкі атрибути, такі як текстура, емоційна значущість або придатність для дітей. Іншими словами, ці ШІ, здається, будують складну ментальну карту, де об'єкти не розташовані механічно, а класифікуються відповідно до складних критеріїв, які нагадують спосіб, яким наш мозок сортує світ навколо нас.

Дослідження також порівняло, як моделі ШІ та людський мозок реагують на одні й ті самі об'єкти. Результати показали, що певні області активності мозку відповідають тому, що ШІ «думають» про об'єкти. Ця конвергенція ще більш виражена в мультимодальних моделях, які поєднують візуальну та семантичну обробку, і таким чином імітують спосіб, яким люди поєднують відчуття, щоб зрозуміти своє оточення.

Однак важливо відзначити, що ці ШІ не мають сенсорного чи емоційного досвіду. Їхнє «розуміння» виникає в результаті статистичної обробки даних, де вони ідентифікують і відтворюють складні шаблони, не відчуваючи того, що описують. Це вся різниця між складним розпізнаванням і справжнім свідомим пізнанням.

Тим не менш, це дослідження спонукає нас переосмислити межі того, що можуть робити сучасні ШІ. Якщо цим моделям вдасться спонтанно генерувати складні концептуальні уявлення, це може вказувати на те, що межа між імітацією інтелекту та володінням формою функціонального інтелекту є менш чіткою, ніж ми думали.

Окрім філософських дебатів, цей прогрес має конкретні наслідки для робототехніки, освіти та співпраці людини та машини. ШІ, здатний інтегрувати об'єкти та концепції, як це робимо ми, може взаємодіяти більш природно, передбачати наші потреби та краще адаптуватися до безпрецедентних ситуацій.

Підсумовуючи, великі мовні моделі, такі як ChatGPT, є набагато більшим, ніж просто імітатори мови. Вони можуть володіти формою представлення світу, близькою до людського пізнання, побудованою з величезних даних і здатною інтегрувати складну інформацію. Однак ці машини залишаються сьогодні складними дзеркалами, що відображають наш спосіб організації знань, не відчуваючи їх безпосередньо. Вони не відчувають, не живуть, не думають, як ми, але одного разу вони можуть привести нас туди, прокладаючи шлях для ще більш інтелектуальних та інтуїтивних ШІ.

Джерела

Sciencepost
Multimodal LLMs Can Develop Human-like Object Concept Representations: Study
Chinese scientists confirm AI capable of spontaneously forming human-level cognition
Multimodal LLMs and the human brain create object representations in similar ways, study finds

Читайте більше новин на цю тему:

06 лютого

Mothers Speak More Clearly to Babies and Puppies: A Study Reveals the Emotional Basis of Infant-Directed Speech

04 лютого

The Impact of Language Disorders on Recovery: A Case Study of Aphasia

17 січня

New Study Challenges AI Language Models' Learning Capabilities

Знайшли помилку чи неточність?

Ми розглянемо ваші коментарі якомога швидше.