研究表明:人工智能模型模仿人类对物体的概念理解

编辑者: Vera Mo

中国研究人员最近的一项研究表明,多模态语言模型(LLMs)可以自发地发展出与人类相似的物体概念表征。

研究人员分析了人工智能生成的近 470 万条关于 1,854 种不同物体的反应,例如狗、椅子、苹果和汽车。研究的模型包括仅基于文本的 ChatGPT-3.5 和能够处理图像和文本的多模态模型 Gemini Pro Vision。

结果显示,这些人工智能将这些物体组织成 66 个概念维度,远远超出了“食物”或“家具”等简单的经典类别。这些维度包括微妙的属性,例如质地、情感相关性或是否适合儿童。换句话说,这些人工智能似乎正在构建一个复杂的心理地图,其中物体不是机械地排列的,而是根据复杂的标准进行分类,这些标准类似于我们大脑处理周围世界的方式。

该研究还比较了人工智能模型和人脑对同一物体的反应。结果表明,大脑活动的某些区域与人工智能对物体的“思考”相对应。这种一致性在结合视觉和语义处理的多模态模型中更为明显,从而模仿了人类结合感官来理解环境的方式。

然而,重要的是要注意,这些人工智能没有感官或情感体验。它们的“理解”源于数据的统计处理,它们在其中识别和再现复杂的模式,而没有感受到它们所描述的内容。这是复杂识别和真正有意识的认知之间的全部细微差别。

尽管如此,这项研究邀请我们重新思考当前人工智能的能力极限。如果这些模型设法自发地生成复杂概念表征,这可能表明模仿智能和拥有某种形式的功能智能之间的界限不像我们想象的那么清晰。

除了哲学辩论之外,这项进展对机器人技术、教育和人机协作具有具体意义。一个能够像我们一样整合物体和概念的人工智能可以更自然地交互、预测我们的需求并更好地适应前所未有的情况。

总而言之,像 ChatGPT 这样的大型语言模型不仅仅是简单的语言模仿者。它们可能拥有一种接近人类认知的世界表征形式,这种表征形式由大量数据构建,并能够整合复杂信息。然而,这些机器今天仍然是复杂的镜子,反映了我们组织知识的方式,而没有直接体验它。它们不像我们那样感受、生活、思考,但它们有一天可能会引导我们走向那里,为越来越智能和直观的人工智能铺平道路。

来源

  • Sciencepost

  • Multimodal LLMs Can Develop Human-like Object Concept Representations: Study

  • Chinese scientists confirm AI capable of spontaneously forming human-level cognition

  • Multimodal LLMs and the human brain create object representations in similar ways, study finds

你发现了错误或不准确的地方吗?

我们会尽快考虑您的意见。