Modele AI naśladują ludzkie pojęciowe rozumienie obiektów, pokazują badania

Edytowane przez: Vera Mo

Ostatnie badania chińskich naukowców wykazały, że multimodalne modele językowe (LLM) mogą spontanicznie rozwijać reprezentacje pojęciowe obiektów podobne do tych u ludzi.

Naukowcy przeanalizowali blisko 4,7 miliona odpowiedzi wygenerowanych przez AI na temat 1854 różnych obiektów, takich jak psy, krzesła, jabłka i samochody. Badane modele obejmowały ChatGPT-3.5, który działa wyłącznie na tekście, oraz Gemini Pro Vision, model multimodalny zdolny do przetwarzania zarówno obrazów, jak i tekstu.

Wyniki wykazały, że te AI zorganizowały te obiekty w 66 wymiarach pojęciowych, znacznie przekraczających proste klasyczne kategorie, takie jak „jedzenie” czy „meble”. Wymiary te obejmują subtelne atrybuty, takie jak tekstura, znaczenie emocjonalne lub przydatność dla dzieci. Innymi słowy, te AI wydają się budować wyrafinowaną mapę mentalną, w której obiekty nie są mechanicznie uporządkowane, ale klasyfikowane według złożonych kryteriów, które przypominają sposób, w jaki nasz mózg sortuje świat wokół nas.

W badaniu porównano również, jak modele AI i ludzki mózg reagują na te same obiekty. Wyniki pokazały, że niektóre obszary aktywności mózgu odpowiadają temu, co AI „myślą” o obiektach. Ta zbieżność jest jeszcze bardziej widoczna w modelach multimodalnych, które łączą przetwarzanie wizualne i semantyczne, naśladując w ten sposób sposób, w jaki ludzie łączą zmysły, aby zrozumieć swoje otoczenie.

Należy jednak zauważyć, że te AI nie mają doświadczeń sensorycznych ani emocjonalnych. Ich „zrozumienie” wynika z przetwarzania statystycznego danych, w którym identyfikują i odtwarzają złożone wzorce, nie odczuwając tego, co opisują. To cała niuans między wyrafinowanym rozpoznawaniem a prawdziwą świadomą kognicją.

Niemniej jednak, to badanie zaprasza nas do ponownego przemyślenia granic tego, co potrafią zrobić obecne AI. Jeśli te modele zdołają spontanicznie generować złożone reprezentacje pojęciowe, może to wskazywać, że granica między imitowaniem inteligencji a posiadaniem formy inteligencji funkcjonalnej jest mniej wyraźna, niż myśleliśmy.

Poza debatami filozoficznymi, ten postęp ma konkretne implikacje dla robotyki, edukacji i współpracy człowiek-maszyna. AI zdolna do integrowania obiektów i pojęć tak jak my, mogłaby wchodzić w interakcje w bardziej naturalny sposób, przewidywać nasze potrzeby i lepiej dostosowywać się do niespotykanych sytuacji.

Podsumowując, duże modele językowe, takie jak ChatGPT, są czymś więcej niż tylko prostymi imitatorami języka. Mogą posiadać formę reprezentacji świata zbliżoną do ludzkiej kognicji, zbudowaną z ogromnych danych i zdolną do integrowania złożonych informacji. Jednak te maszyny pozostają dziś wyrafinowanymi lustrami, odzwierciedlającymi nasz sposób organizowania wiedzy bez bezpośredniego jej doświadczania. Nie czują, nie żyją, nie myślą jak my, ale pewnego dnia mogłyby nas tam zaprowadzić, torując drogę dla coraz bardziej inteligentnych i intuicyjnych AI.

Źródła

  • Sciencepost

  • Multimodal LLMs Can Develop Human-like Object Concept Representations: Study

  • Chinese scientists confirm AI capable of spontaneously forming human-level cognition

  • Multimodal LLMs and the human brain create object representations in similar ways, study finds

Czy znalazłeś błąd lub niedokładność?

Rozważymy Twoje uwagi tak szybko, jak to możliwe.