KI-Modell ahmt menschliche Klangsimulation inspiriert von Larynx-Mechanismen nach

Edited by: Vera Mo

Forscher am Computer Science and Artificial Intelligence Laboratory (CSAIL) des MIT haben ein künstliches Intelligenz (KI)-System entwickelt, das in der Lage ist, menschliche Klangsimulationen zu erzeugen und zu interpretieren. Diese Innovation basiert auf der Kognitionswissenschaft zur menschlichen Kommunikation.

Das KI-Modell simuliert, wie Klänge durch den Kehlkopf, den Hals, die Zunge und die Lippen gebildet werden. Es erzeugt Klangsimulationen ohne vorherige Schulung oder Exposition gegenüber menschlich produzierten Klängen. Das Team hat ein Modell entwickelt, das die Nuancen der menschlichen Klangproduktion widerspiegelt, um realistische Klangsimulationen zu erstellen, wie das Nachahmen einer Sirene oder des Rufs eines Raben.

Das System funktioniert auf zwei Arten: Es erzeugt Klangsimulationen und kann auch reale Klänge aus menschlichen Stimmimitationen ableiten. Zum Beispiel unterscheidet es genau zwischen dem 'Miau' und dem 'Gurren' einer Katze basierend auf menschlicher Nachahmung.

Das Forschungsteam entwickelte drei zunehmend ausgefeilte Versionen des Modells. Die erste Version konzentrierte sich ausschließlich auf die Erzeugung von Klängen, die realen Klängen ähnlich sind, stimmte jedoch nicht mit menschlichem Verhalten überein. Die zweite Version, das 'Kommunikationsmodell', berücksichtigte die Merkmale von Klängen aus der Perspektive der Zuhörer.

Die letzte Iteration integrierte eine Schicht des Denkens, wobei anerkannt wurde, dass der Aufwand, der in die Klangproduktion investiert wird, das Ergebnis beeinflusst. Dieses Modell vermeidet die Erzeugung von Klängen, die zu schnell, laut oder übertrieben sind, was zu menschlicheren Simulationen führt.

Die Implikationen dieser Forschung erstrecken sich auf die Schaffung ausdrucksvollerer Klangschnittstellen für Künstler, die Filmemachern und Inhaltserstellern helfen, kontextuell angemessene KI-Klänge zu erzeugen. Zukünftige Anwendungen könnten Studien zur Sprachentwicklung, zur Art und Weise, wie Säuglinge sprechen lernen, und zu Nachahmungsverhalten von Vögeln umfassen.

Trotz ihrer Fortschritte steht das Modell vor Herausforderungen, insbesondere bei bestimmten Konsonanten, was zu Ungenauigkeiten bei der Simulation von Klängen wie dem Summen von Bienen führt. Darüber hinaus hat es Schwierigkeiten, wie Menschen Sprache, Musik oder Klänge in verschiedenen Sprachen nachahmen.

Professor Robert Hawkins von der Stanford Universität bemerkte die Komplexität der Übersetzung realer Klänge in Wörter und hob die komplexe Wechselwirkung von Physiologie, sozialem Denken und Kommunikation in der Sprachentwicklung hervor. Dieses Modell stellt einen bedeutenden Schritt zur Formalisierung und Validierung von Theorien über diese Prozesse dar.

Haben Sie einen Fehler oder eine Ungenauigkeit festgestellt?

Wir werden Ihre Kommentare so schnell wie möglich berücksichtigen.