谷歌DolphinGemma AI解码海豚语言：开源模型助力鲸类动物交流研究

06:39, 15 四月

编辑者： Vera Mo

谷歌推出了DolphinGemma，这是一款旨在解码海豚交流的人工智能模型，由谷歌与佐治亚理工学院和野生海豚项目（WDP）合作开发。DolphinGemma利用谷歌Gemma模型背后的技术，分析海豚的声音序列并预测后续声音，类似于海豚咔哒声、口哨声和脉冲的自动完成功能。该系统的核心是SoundStream分词器，它将海豚的声音分成声学单元，由自定义架构处理以识别模式。该模型使用WDP自1985年以来收集的数据进行训练，研究巴哈马的大西洋斑点海豚（Stenella frontalis）。这些数据揭示了特定声音和行为之间的相关性，例如母亲和小牛使用的标志性口哨声，与紧张相关的间歇性“吱吱”声，以及在求爱期间观察到的“嗡嗡”点击声。 DolphinGemma可以识别和重现合理的声音序列。该模型拥有4亿个参数，经过优化可在研究人员在现场使用的Google Pixel设备上运行。 WDP正在探索通过CHAT（鲸类听觉增强遥测）系统与海豚进行交流，这是一种水下计算机，旨在引入基于与马尾藻或围巾等物体相关的合成口哨声的共享词汇。目标是建立符号互动，如果海豚模仿人工口哨声来请求物体。 CHAT最初在Pixel 6上运行，将升级到Pixel 9，从而能够同时运行深度学习模型和模式匹配算法。DolphinGemma可以与CHAT一起使用来预测模仿尝试，从而提高互动效果。谷歌计划在2025年夏季发布DolphinGemma作为开源模型，该模型可适应其他物种，如宽吻海豚。其目的是加速科学发现，使研究人员能够分析声学数据集并为理解海洋哺乳动物做出贡献。

谷歌DolphinGemma AI解码海豚语言：开源模型助力鲸类动物交流研究

阅读更多关于该主题的新闻：