Een recente studie door Chinese onderzoekers heeft aangetoond dat multi-modale taalmodellen (LLM's) spontaan conceptuele representaties van objecten kunnen ontwikkelen die vergelijkbaar zijn met die van mensen.
Onderzoekers analyseerden bijna 4,7 miljoen reacties gegenereerd door AI's over 1.854 verschillende objecten zoals honden, stoelen, appels en auto's. De bestudeerde modellen omvatten ChatGPT-3.5, dat uitsluitend op tekst werkt, en Gemini Pro Vision, een multi-modaal model dat zowel afbeeldingen als tekst kan verwerken.
De resultaten toonden aan dat deze AI's deze objecten organiseerden in 66 conceptuele dimensies, wat veel verder gaat dan eenvoudige klassieke categorieën zoals 'voedsel' of 'meubels'. Deze dimensies omvatten subtiele attributen zoals textuur, emotionele relevantie of geschiktheid voor kinderen. Met andere woorden, deze AI's lijken een geavanceerde mentale kaart te bouwen, waarbij objecten niet mechanisch worden gerangschikt, maar worden geclassificeerd op basis van complexe criteria die lijken op de manier waarop onze hersenen de wereld om ons heen sorteren.
De studie vergeleek ook hoe AI-modellen en de menselijke hersenen reageren op dezelfde objecten. De resultaten toonden aan dat bepaalde gebieden van hersenactiviteit overeenkomen met wat AI's 'denken' over objecten. Deze convergentie is nog duidelijker in multi-modale modellen, die visuele en semantische verwerking combineren, waardoor ze de manier nabootsen waarop mensen zintuigen combineren om hun omgeving te begrijpen.
Het is echter belangrijk op te merken dat deze AI's geen sensorische of emotionele ervaringen hebben. Hun 'begrip' komt voort uit statistische verwerking van gegevens, waarbij ze complexe patronen identificeren en reproduceren, zonder te voelen wat ze beschrijven. Dit is het hele nuanceverschil tussen geavanceerde herkenning en echte bewuste cognitie.
Desalniettemin nodigt deze studie ons uit om de grenzen van wat huidige AI's kunnen doen, te heroverwegen. Als deze modellen erin slagen spontaan complexe conceptuele representaties te genereren, kan dit erop wijzen dat de grens tussen het imiteren van intelligentie en het bezitten van een vorm van functionele intelligentie minder duidelijk is dan we dachten.
Naast filosofische debatten heeft deze vooruitgang concrete implicaties voor robotica, onderwijs en mens-machine-samenwerking. Een AI die in staat is om objecten en concepten te integreren zoals wij dat doen, zou op een natuurlijkere manier kunnen interageren, onze behoeften kunnen anticiperen en zich beter kunnen aanpassen aan ongekende situaties.
Kortom, grote taalmodellen zoals ChatGPT zijn veel meer dan simpele taalimitators. Ze zouden een vorm van representatie van de wereld kunnen bezitten die dicht bij de menselijke cognitie ligt, gebouwd op enorme hoeveelheden gegevens en in staat om complexe informatie te integreren. Deze machines blijven echter vandaag de dag geavanceerde spiegels, die onze manier van het organiseren van kennis weerspiegelen zonder het direct te ervaren. Ze voelen niet, leven niet, denken niet zoals wij, maar ze zouden ons daar op een dag naartoe kunnen leiden, en de weg effenen voor steeds intelligentere en intuïtieve AI's.