小米开源首个原生端到端语音大模型 MiMo-Audio

小米开源首个原生端到端语音大模型_MiMo-Audio 图1
小米开源首个原生端到端语音大模型 MiMo-Audio

9 月 19 日，小米正式开源首个原生端到端语音模型 Xiaomi-MiMo-Audio，该模型基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于 ICL 的少样本泛化，并在预训练中观察到明显的”涌现”行为。

在多项标准评测中，MiMo-Audio 大幅超越同参数量开源模型，取得 7B 最佳性能。在音频理解基准 MMAU 标准测试集上超过 Google 闭源语音模型 Gemini-2.5-Flash，在 Big Bench Audio S2T 任务中超越 OpenAI 闭源语音模型 GPT-4o-Audio-Preview。

附件内容

新浪科技

Hugging Face

本站提供的一切软件、教程和内容信息仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途。本站所有信息均来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序，请支持正版，购买注册，得到更好的正版服务。如有侵权不妥之处请致信 E-mail：admin@kongyu.xin 我们会积极处理。敬请谅解

THE END

小米开源首个原生端到端语音大模型 MiMo-Audio

请登录后发表评论