消费电子实验室 - 大中华区最具商业价值的消费电子专业网站 - The most valuable and professional Consumer electronics business website in Greater China › 消电电子实验室 ›新闻中心› 行业动态 › 查看内容

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

2025-9-19 13:18| 发布者: cncelab| 查看: 1672| 评论: 0

摘要: 首次证明把语音无损压缩预训练 Scaling 至 1 亿小时可以“涌现”出跨任务的泛化性，表现为 Few-Shot Learning 能力：首个明确语音生成式预训练的目标和定义，并开源一套完整的语音预训练方案，包括无损压缩的 Tokeni ...

【消费电子实验室-2025/9/19】今日，小米宣布开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio，首次在语音领域实现基于 ICL 的少样本泛化。

据小米介绍，五年前 GPT-3 首次展示了通过自回归语言模型 + 大规模无标注数据训练，获得 In-Context Learning（ICL，上下文学习）能力，而在语音领域，现有的大模型仍严重依赖大规模标注数据，难以适应新任务达到类人智能。

而 Xiaomi-MiMo-Audio 模型打破了这种瓶颈，它基于创新预训练架构和上亿小时训练数据，在智商、情商、表现力与安全性在内的跨模态对齐能力均有提升，在自然度、情感表达和交互适配方面呈现出拟人化水准。

这款模型的创新点是：首次证明把语音无损压缩预训练 Scaling 至 1 亿小时可以“涌现”出跨任务的泛化性，表现为 Few-Shot Learning 能力：首个明确语音生成式预训练的目标和定义，并开源一套完整的语音预训练方案，包括无损压缩的 Tokenizer、全新模型结构、训练方法和评测体系。