小米开源首个原生端到端语音大模型 MiMo-Audio

小米开源首个原生端到端语音大模型_MiMo-Audio 图1
小米开源首个原生端到端语音大模型 MiMo-Audio

9 月 19 日,小米正式开源首个原生端到端语音模型 Xiaomi-MiMo-Audio,该模型基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于 ICL 的少样本泛化,并在预训练中观察到明显的”涌现”行为。

在多项标准评测中,MiMo-Audio 大幅超越同参数量开源模型,取得 7B 最佳性能。在音频理解基准 MMAU 标准测试集上超过 Google 闭源语音模型 Gemini-2.5-Flash,在 Big Bench Audio S2T 任务中超越 OpenAI 闭源语音模型 GPT-4o-Audio-Preview。

附件内容
© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容