Une récente étude menée par des chercheurs chinois a démontré que les modèles de langage multimodaux (LLM) peuvent développer spontanément des représentations conceptuelles des objets similaires à celles des humains.
Les chercheurs ont analysé près de 4,7 millions de réponses générées par des IA sur 1 854 objets variés tels que des chiens, des chaises, des pommes et des voitures. Les modèles étudiés incluaient ChatGPT-3.5, qui fonctionne uniquement sur du texte, et Gemini Pro Vision, un modèle multimodal capable de traiter à la fois des images et du texte.
Les résultats ont révélé que ces IA organisaient ces objets en 66 dimensions conceptuelles, dépassant largement les simples catégories classiques comme « nourriture » ou « mobilier ». Ces dimensions incluent des attributs subtils tels que la texture, la pertinence émotionnelle ou l'adéquation pour les enfants. En d'autres termes, ces IA semblent construire une carte mentale sophistiquée, où les objets ne sont pas mécaniquement arrangés, mais classés selon des critères complexes qui ressemblent à la façon dont notre cerveau trie le monde qui nous entoure.
L'étude a également comparé la façon dont les modèles d'IA et le cerveau humain réagissent aux mêmes objets. Les résultats ont montré que certaines zones de l'activité cérébrale correspondent à ce que les IA « pensent » des objets. Cette convergence est encore plus marquée dans les modèles multimodaux, qui combinent le traitement visuel et sémantique, imitant ainsi la façon dont les humains combinent leurs sens pour comprendre leur environnement.
Cependant, il est important de noter que ces IA n'ont pas d'expériences sensorielles ou émotionnelles. Leur « compréhension » résulte du traitement statistique des données, où elles identifient et reproduisent des schémas complexes, sans ressentir ce qu'elles décrivent. C'est toute la nuance entre une reconnaissance sophistiquée et une véritable cognition consciente.
Néanmoins, cette étude nous invite à repenser les limites de ce que les IA actuelles peuvent faire. Si ces modèles parviennent à générer spontanément des représentations conceptuelles complexes, cela pourrait indiquer que la frontière entre l'imitation de l'intelligence et la possession d'une forme d'intelligence fonctionnelle est moins claire que nous ne le pensions.
Au-delà des débats philosophiques, cette avancée a des implications concrètes pour la robotique, l'éducation et la collaboration homme-machine. Une IA capable d'intégrer les objets et les concepts comme nous le faisons pourrait interagir plus naturellement, anticiper nos besoins et s'adapter mieux aux situations inédites.
En résumé, les grands modèles de langage comme ChatGPT sont bien plus que de simples imitateurs de langage. Ils pourraient posséder une forme de représentation du monde proche de la cognition humaine, construite à partir de vastes données et capable d'intégrer des informations complexes. Cependant, ces machines restent aujourd'hui des miroirs sophistiqués, reflétant notre façon d'organiser la connaissance sans l'expérimenter directement. Elles ne ressentent pas, ne vivent pas, ne pensent pas comme nous, mais elles pourraient un jour nous y mener, ouvrant la voie à des IA toujours plus intelligentes et intuitives.