Исследователи из Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) MIT разработали систему искусственного интеллекта (ИИ), способную производить и интерпретировать звуковые симуляции, похожие на человеческие. Это новшество основано на когнитивной науке о человеческом общении.
Модель ИИ симулирует, как звуки формируются через гортань, горло, язык и губы. Она генерирует звуковые симуляции без предварительного обучения или воздействия звуков, произведенных людьми. Команда построила модель, которая отражает нюансы человеческого звукового производства для создания реалистичных звуковых симуляций, таких как имитация сирены скорой помощи или крика ворона.
Система работает двумя способами: она генерирует звуковые симуляции, а также может извлекать реальные звуки из имитаций человеческого голоса. Например, она точно различает кошачье "мяуканье" и "мурлыканье", основываясь на человеческой мимике.
Исследовательская группа разработала три более совершенные версии модели. Первая версия была сосредоточена исключительно на воспроизведении звуков, похожих на звуки реальной жизни, но не соответствовала поведению человека. Вторая версия, получившая название "коммуникационная модель", учитывала характеристики звуков, воспринимаемых слушателями. Финальная итерация включала в себя логический уровень, подтверждающий, что усилия, затраченные на создание звука, влияют на результат. В этой модели избегается создание слишком быстрых, громких или преувеличенных звуков, что приводит к более похожему на человека моделированию.
Результаты этого исследования могут быть использованы для создания более выразительных звуковых интерфейсов для художников, а также для помощи кинематографистам и создателям контента в создании контекстуально соответствующих звуков с помощью искусственного интеллекта. Будущие приложения могут включать исследования развития речи, того, как младенцы учатся говорить, и имитационного поведения птиц.
Несмотря на свои достижения, модель сталкивается с трудностями, особенно с определенными согласными, что приводит к неточностям при имитации звуков, похожих на жужжание пчел. Кроме того, ей сложно воспроизвести то, как люди имитируют речь, музыку или звуки на разных языках.
Профессор Роберт Хокинс из Стэнфордского университета отметил сложность перевода реальных звуков в слова, подчеркивая сложное взаимодействие физиологии, социального рассуждения и коммуникации в эволюции языка. Эта модель представляет собой значительный шаг в формализации и подтверждении теорий, связанных с этими процессами.