Modele ChatGPT ujawniają fraktalną naturę języka ludzkiego

Edytowane przez: Vera Mo

Lingwiści komputerowi badali różne metody modelowania języka przez sześć dekad, niedawno znajdując potencjalne odpowiedzi przy użyciu dużych modeli językowych (LLM), takich jak ChatGPT. Początkowe podejścia wykorzystywały gramatyki formalne Noama Chomsky'ego i sztywną semantykę, które zmagały się z płynną naturą znaczenia. W latach 90. wprowadzono modele statystyczne oparte na n-gramach, opisujące język za pomocą prawdopodobieństw współwystępowania słów. Na przykład „io vedo” [widzę] występuje częściej niż „io casa” [ja dom]. Modele te zautomatyzowały analizę językową, ale zredukowały znaczenie do bliskości słów. Pojawienie się LLM, opartych na sieciach transformatorowych, oznaczało rewolucję. LLM uczą się, przewidując następne słowo w zdaniu, proces powtarzany w całym tekście internetowym. Umożliwia im to przewidywanie słów i generowanie kontynuacji tekstu. LLM ułatwiły statystyczną analizę częstotliwości słów na dużą skalę, ujawniając fraktalną naturę języka. Podobnie jak fraktale, język wykazuje samopodobieństwo w różnych skalach, z właściwościami takimi jak spójność pojawiającymi się w słowach, zdaniach i całych tekstach. Korelacje dalekiego zasięgu łączą odległe słowa lub akapity semantycznie. LLM odnoszą sukces dzięki swojej zdolności do uogólniania informacji lokalnych i modelowania wiedzy ukrytej, zdefiniowanej przez Michaela Polanyi'ego, zdobytej dzięki doświadczeniu. Lingwiści uznają teraz język ludzki za chaotyczne, złożone zjawisko, a LLM służą jako narzędzia do badania jego zawiłości.

Czy znalazłeś błąd lub niedokładność?

Rozważymy Twoje uwagi tak szybko, jak to możliwe.