中国の研究者による最近の研究では、マルチモーダル言語モデル(LLM)が、人間と同様の物体の概念的表現を自発的に開発できることが実証されました。
研究者らは、犬、椅子、リンゴ、車など、1,854種類の物体について、AIが生成した約470万件の回答を分析しました。研究対象となったモデルには、テキストのみで動作するChatGPT-3.5と、画像とテキストの両方を処理できるマルチモーダルモデルであるGemini Pro Visionが含まれていました。
その結果、これらのAIがこれらの物体を66の概念的次元に整理しており、「食べ物」や「家具」などの単純な古典的カテゴリをはるかに超えていることが明らかになりました。これらの次元には、テクスチャ、感情的な関連性、子供への適合性などの微妙な属性が含まれます。言い換えれば、これらのAIは、物体が機械的に配置されるのではなく、私たちの脳が世界を分類する方法に似た複雑な基準に従って分類される、洗練されたメンタルマップを構築しているようです。
この研究では、AIモデルと人間の脳が同じ物体にどのように反応するかも比較されました。その結果、脳活動の特定の領域が、AIが物体について「考えていること」に対応していることが示されました。この収束は、視覚的および意味的処理を組み合わせ、人間が環境を理解するために感覚を組み合わせる方法を模倣するマルチモーダルモデルでさらに顕著です。
ただし、これらのAIには感覚的または感情的な経験がないことに注意することが重要です。彼らの「理解」は、記述しているものを感じることなく、複雑なパターンを特定して再現するデータの統計的処理から生じています。これは、洗練された認識と真の意識的な認知の間のすべてのニュアンスです。
それでも、この研究は、現在のAIができることの限界を再考するよう私たちに促しています。これらのモデルが自発的に複雑な概念的表現を生成できるようになれば、知性を模倣することと、何らかの機能的知性を所有することの境界が、私たちが考えていたよりも曖昧である可能性があることを示唆する可能性があります。
哲学的議論を超えて、この進歩はロボット工学、教育、人間と機械の協働に具体的な影響を与えます。私たちのように物体や概念を統合できるAIは、より自然に相互作用し、私たちのニーズを予測し、これまでにない状況によりよく適応できるようになります。
要約すると、ChatGPTのような大規模言語モデルは、単なる言語模倣者ではありません。彼らは、人間の認知に近い世界の表現形式を所有している可能性があり、膨大なデータから構築され、複雑な情報を統合することができます。しかし、これらのマシンは今日、知識を直接体験することなく、知識を組織化する方法を反映する洗練された鏡のままです。彼らは私たちのように感じず、生きておらず、考えていませんが、いつか私たちをそこに導き、ますますインテリジェントで直感的なAIへの道を切り開く可能性があります。