Los lingüistas computacionales han explorado varios métodos para modelar el lenguaje durante seis décadas, encontrando recientemente respuestas potenciales utilizando modelos de lenguaje grandes (LLM) como ChatGPT. Los enfoques iniciales utilizaron las gramáticas formales de Noam Chomsky y la semántica rígida, que luchaban con la naturaleza fluida del significado. En la década de 1990 se introdujeron modelos estadísticos basados en n-gramos, que describen el lenguaje a través de probabilidades de co-ocurrencia de palabras. Por ejemplo, "io vedo" [yo veo] es más frecuente que "io casa" [yo casa]. Estos modelos automatizaron el análisis lingüístico, pero redujeron el significado a la proximidad de las palabras. El advenimiento de los LLM, basados en redes transformadoras, marcó una revolución. Los LLM aprenden prediciendo la siguiente palabra en una oración, un proceso que se repite en todo el texto web. Esto les permite predecir palabras y generar continuaciones de texto. Los LLM han facilitado el análisis estadístico a gran escala de las frecuencias de palabras, revelando la naturaleza fractal del lenguaje. Al igual que los fractales, el lenguaje exhibe auto-similitud en diferentes escalas, con propiedades como la coherencia que aparecen en palabras, oraciones y textos completos. Las correlaciones de largo alcance conectan palabras o párrafos distantes semánticamente. Los LLM tienen éxito debido a su capacidad para generalizar la información local y modelar el conocimiento tácito, como lo define Michael Polanyi, adquirido a través de la experiencia. Los lingüistas ahora reconocen el lenguaje humano como un fenómeno caótico y complejo, con los LLM sirviendo como herramientas para estudiar sus complejidades.
Los modelos ChatGPT revelan la naturaleza fractal del lenguaje humano
Editado por: Vera Mo
Lea más noticias sobre este tema:
¿Encontró un error o inexactitud?
Consideraremos sus comentarios lo antes posible.