研究顯示:人工智慧模型模仿人類對物件的概念理解

编辑者: Vera Mo

中國研究人員最近的一項研究表明,多模態語言模型(LLMs)可以自發地發展出與人類相似的物件概念表徵。

研究人員分析了人工智慧生成的近 470 萬條關於 1,854 種不同物件的反應,例如狗、椅子、蘋果和汽車。研究的模型包括僅基於文本的 ChatGPT-3.5 和能夠處理圖像和文本的多模態模型 Gemini Pro Vision。

結果顯示,這些人工智慧將這些物件組織成 66 個概念維度,遠遠超出了「食物」或「家具」等簡單的經典類別。這些維度包括微妙的屬性,例如質地、情感相關性或是否適合兒童。換句話說,這些人工智慧似乎正在構建一個複雜的心理地圖,其中物件不是機械地排列的,而是根據複雜的標準進行分類,這些標準類似於我們大腦處理周圍世界的方式。

該研究還比較了人工智慧模型和人腦對同一物件的反應。結果表明,大腦活動的某些區域與人工智慧對物件的「思考」相對應。這種一致性在結合視覺和語義處理的多模態模型中更為明顯,從而模仿了人類結合感官來理解環境的方式。

然而,重要的是要注意,這些人工智慧沒有感官或情感體驗。它們的「理解」源於數據的統計處理,它們在其中識別和再現複雜的模式,而沒有感受到它們所描述的內容。這是複雜識別和真正有意識的認知之間的全部細微差別。

儘管如此,這項研究邀請我們重新思考當前人工智慧的能力極限。如果這些模型設法自發地生成複雜概念表徵,這可能表明模仿智能和擁有某種形式的功能智能之間的界限不像我們想像的那麼清晰。

除了哲學辯論之外,這項進展對機器人技術、教育和人機協作具有具體意義。一個能夠像我們一樣整合物件和概念的人工智慧可以更自然地交互、預測我們的需求並更好地適應前所未有的情況。

總而言之,像 ChatGPT 這樣的大型語言模型不僅僅是簡單的語言模仿者。它們可能擁有一種接近人類認知的世界表徵形式,這種表徵形式由大量數據構建,並能夠整合複雜資訊。然而,這些機器今天仍然是複雜的鏡子,反映了我們組織知識的方式,而沒有直接體驗它。它們不像我們那樣感受、生活、思考,但它們有一天可能會引導我們走向那裡,為越來越智慧和直觀的人工智慧鋪平道路。

來源

  • Sciencepost

  • Multimodal LLMs Can Develop Human-like Object Concept Representations: Study

  • Chinese scientists confirm AI capable of spontaneously forming human-level cognition

  • Multimodal LLMs and the human brain create object representations in similar ways, study finds

发现错误或不准确的地方吗?

我们会尽快处理您的评论。