Modelo de IA imita simulación de sonido humano inspirado en mecanismos de la laringe

Editado por: Vera Mo

Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han desarrollado un sistema de inteligencia artificial (IA) capaz de producir e interpretar simulaciones de sonido similares a las humanas. Esta innovación se basa en la ciencia cognitiva sobre la comunicación humana.

El modelo de IA simula cómo se forman los sonidos a través de la laringe, la garganta, la lengua y los labios. Genera simulaciones de sonido sin formación previa ni exposición a sonidos producidos por humanos. El equipo construyó un modelo que refleja las sutilezas de la producción de sonido humano para crear simulaciones sonoras realistas, como imitar la sirena de una ambulancia o el llamado de un cuervo.

El sistema funciona de dos maneras: genera simulaciones de sonido y también puede deducir sonidos reales a partir de imitaciones vocales humanas. Por ejemplo, distingue con precisión entre el 'miau' y el 'ronroneo' de un gato según la imitación humana.

El equipo de investigación desarrolló tres versiones del modelo, cada una más sofisticada. La primera versión se centró únicamente en producir sonidos similares a los de la vida real, pero no coincidía con el comportamiento humano. La segunda versión, llamada 'modelo de comunicación', tuvo en cuenta las características de los sonidos desde la perspectiva de los oyentes.

La última iteración incorporó una capa de razonamiento, reconociendo que el esfuerzo dedicado a la producción de sonido afecta el resultado. Este modelo evita producir sonidos que sean demasiado rápidos, fuertes o exagerados, lo que resulta en simulaciones más humanas.

Las implicaciones de esta investigación se extienden a la creación de interfaces sonoras más expresivas para artistas, ayudando a cineastas y creadores de contenido a generar sonidos de IA apropiados para el contexto. Las aplicaciones futuras podrían incluir estudios sobre el desarrollo del lenguaje, cómo los bebés aprenden a hablar y los comportamientos de imitación de las aves.

A pesar de sus avances, el modelo enfrenta desafíos, especialmente con ciertas consonantes, lo que lleva a inexactitudes en la simulación de sonidos como el zumbido de las abejas. Además, tiene dificultades para replicar cómo los humanos imitan el habla, la música o los sonidos en diferentes idiomas.

El profesor Robert Hawkins de la Universidad de Stanford comentó sobre la complejidad de traducir sonidos reales en palabras, destacando la compleja interacción entre fisiología, razonamiento social y comunicación en la evolución del lenguaje. Este modelo representa un paso significativo en la formalización y validación de teorías sobre estos procesos.

¿Encontró un error o inexactitud?

Consideraremos sus comentarios lo antes posible.