I modelli ChatGPT rivelano la natura frattale del linguaggio umano

Modificato da: Vera Mo

I linguisti computazionali hanno esplorato vari metodi per modellare il linguaggio nel corso di sei decenni, trovando recentemente potenziali risposte utilizzando i Large Language Model (LLM) come ChatGPT. Gli approcci iniziali utilizzavano le grammatiche formali di Noam Chomsky e una semantica rigida, che faticavano con la natura fluida del significato. Negli anni '90 sono stati introdotti modelli statistici basati sugli n-grammi, che descrivono il linguaggio tramite le probabilità di co-occorrenza delle parole. Ad esempio, "io vedo" è una coppia di parole più frequente dell'improbabile bigramma "io casa". Questi modelli hanno automatizzato l'analisi linguistica, ma hanno ridotto il significato alla prossimità delle parole. L'avvento degli LLM, basati su reti transformer, ha segnato una rivoluzione. Gli LLM imparano prevedendo la parola successiva in una frase, un processo ripetuto su tutto il testo web. Questo consente loro di prevedere parole e generare continuazioni di testo. Gli LLM hanno facilitato l'analisi statistica su larga scala delle frequenze delle parole, rivelando la natura frattale del linguaggio. Come i frattali, il linguaggio mostra auto-similarità a diverse scale, con proprietà come la coerenza che appaiono in parole, frasi e testi interi. Le correlazioni a lungo raggio collegano parole o paragrafi distanti semanticamente. Gli LLM hanno successo grazie alla loro capacità di generalizzare le informazioni locali e modellare la conoscenza tacita, come definita da Michael Polanyi, acquisita attraverso l'esperienza. I linguisti ora riconoscono il linguaggio umano come un fenomeno caotico e complesso, con gli LLM che fungono da strumenti per studiarne le complessità.

Hai trovato un errore o un'inaccuratezza?

Esamineremo il tuo commento il prima possibile.