Des chercheurs du Laboratoire d'Informatique et d'Intelligence Artificielle (CSAIL) du MIT ont développé un système d'intelligence artificielle (IA) capable de produire et d'interpréter des simulations sonores semblables à celles des humains. Cette innovation s'inspire des sciences cognitives concernant la communication humaine.
Le modèle d'IA simule la manière dont les sons sont formés par le larynx, la gorge, la langue et les lèvres. Il génère des simulations sonores sans formation préalable ni exposition à des sons produits par des humains. L'équipe a construit un modèle qui reflète les nuances de la production sonore humaine pour créer des simulations sonores réalistes, telles que l'imitation d'une sirène d'ambulance ou du cri d'un corbeau.
Le système fonctionne de deux manières : il génère des simulations sonores et peut également déduire des sons réels à partir des imitations vocales humaines. Par exemple, il distingue avec précision entre le 'meow' et le 'grou' d'un chat en fonction de l'imitation humaine.
L'équipe de recherche a développé trois versions de plus en plus sophistiquées du modèle. La première version se concentrait uniquement sur la production de sons similaires à ceux de la vie réelle, mais ne s'alignait pas sur le comportement humain. La deuxième version, appelée 'modèle de communication', prenait en compte les caractéristiques des sons perçus par les auditeurs.
La dernière itération a incorporé une couche de raisonnement, reconnaissant que l'effort investi dans la production sonore affecte le résultat. Ce modèle évite de produire des sons trop rapides, forts ou exagérés, ce qui entraîne des simulations plus humaines.
Les implications de cette recherche s'étendent à la création d'interfaces sonores plus expressives pour les artistes, aidant les réalisateurs et les créateurs de contenu à générer des sons AI appropriés en contexte. Les applications futures pourraient inclure des études sur le développement du langage, comment les nourrissons apprennent à parler et les comportements de mimétisme des oiseaux.
Malgré ses avancées, le modèle fait face à des défis, notamment avec certaines consonnes, ce qui entraîne des inexactitudes dans la simulation de sons tels que le bourdonnement des abeilles. De plus, il a du mal à reproduire comment les humains imitent la parole, la musique ou des sons dans différentes langues.
Le professeur Robert Hawkins de l'Université de Stanford a commenté la complexité de la traduction des sons réels en mots, mettant en évidence l'interaction complexe entre physiologie, raisonnement social et communication dans l'évolution du langage. Ce modèle représente une avancée significative dans la formalisation et la validation des théories entourant ces processus.