Xiaomi open-sources OmniVoice multi-language voice cloning TTS model, claiming to handle more than 600 languages
小米开源OmniVoice多语言语音克隆TTS模型,号称搞定600余种语言
凤凰网科技
ifeng
Document Text
1,241 characters
IT之家 5 月 7 日消息,“小米技术”公众号今天下午宣布,小米 AI 实验室新一代 Kaldi 团队全新推出 OmniVoice,不仅在中英文场景达到顶尖性能,更在多语言任务中展现出超越商用系统的实力,是业内首个覆盖数百语种的语音克隆 TTS 模型。<br>
官方表示,该模型在低资源小语种上具备极强的泛化能力,你想得到的所有语种几乎都可以用 OmniVoice 来合成。OmniVoice“最亮眼的突破”是其极简的模型架构。它仅用一个双向 Transformer 网络,就能直接实现文本到语音的转化,省去了多余的结构和环节:没有文本的单独建模,没有复杂的混合结构,也没有多层级的 token 预测,是目前最简单的非自回归 TTS 模型。<br>
OmniVoice 的语音合成质量优于目前同类主流模型,同时,训练和推理速度极具优势,一天完成 10 万小时训练,用 PyTorch 推理就可以达到 40 倍实时,轻松适配各类应用场景。<br>
在这种实力的背后,是两项“关键设计”:一是通过全码本随机掩蔽策略,显著提升模型的训练效率,进而全面提升模型能力;二是引入大语言模型作为模型的预训练参数,首次在非自回归 TTS 模型中有效利用大语言模型,让语音合成的可懂度大幅提升,解决“读不准”的问题。<br>
IT之家从官方介绍获悉,在多语言测试中,即便仅基于开源数据训练,在 24 语种的测试中,其语音相似度和可懂度均超越多款商用系统;在 102 种语种的测试中,它的语音可懂度逼近甚至优于真实语音;即便对于训练数据不足 10 小时的小语种,OmniVoice 也能实现高质量的语音合成,大大降低了低资源语种的语音合成门槛。<br>
该模型还具备多项实用功能:<br>
自定义音色设计:无需参考音频,只需描述音色属性(如性别、年龄、音调、方言、口音等),就能生成符合预期的音色,还支持耳语等特殊风格。<br>
带噪参考音频适配:针对实际使用中参考音频音质不佳的问题,OmniVoice 能自动过滤噪声,提取清晰的音色特征,即便在嘈杂环境下录制的音频,也能克隆出高质量语音。<br>
丰富语气表达:支持插入笑声、叹气等语气符号,让合成语音更有表现力,更贴近真人交流。<br>
发音精准纠正:针对中英文多音字、专有名词易读错的问题,用户可通过简单设置,纠正发音错误,提升语音合成的可靠性。<br>
“特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。<br>
Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”
Metadata
| Publisher | 凤凰网科技 |
| Site | ifeng |
| Date | N/A |
| CMS Category | 媒体报道 |
| Keywords | 语音 模型 语言 克隆 小米 开源 音色 中英文 音频 语种 问题 音调 性别 发音 场景 商用 文本 精准 速度 网络 方言 极具 双向 语气 真人 优势 年龄 资源 专有名词 环节 技术 系统 实力 顶尖 性能 高质量 交流 耳语 风格 全面 口音 属性 音质 策略 公众 今天下午 多音字 大大降低 门槛 实用功能 利用 结构 质量 同类 任务 能力 表现力 效率 符号 错误 消息 建模 官方 全码 用户 特征 环境 笑声 小时 架构 参数 可靠性 实验室 数据 |
Verification