Mimo TTS ASR 2.59 FREE — 你的声音,随心所"驭" 🆓限时免费
v2.5.9 · 面向 Agent 时代的全链路语音模型系列 · 三款 TTS 模型 + ASR 全部限时免费
官方资源 / Official Links
功能概览 / Overview
TTS — 三款模型
| 模型 | 能力 | 场景 |
|---|
| 🎙️ MiMo-V2.5-TTS | 内置精品音色,语速/情绪/语气精细控制 | 通用语音合成 |
| 🎨 MiMo-V2.5-TTS-VoiceDesign | 自然语言描述从零生成新音色(无需参考音频) | 游戏NPC/虚拟主播/品牌IP |
| 🔁 MiMo-V2.5-TTS-VoiceClone | 短音频高保真克隆音色(数秒即可) | 播客克隆/配音复刻 |
⭐ 三款模型均已限时免费
ASR — 语音识别
| 能力 | 说明 |
|---|
| 🌍 中英双语 | 自由切换,无需预设语种 |
| 🗣️ 中文方言 | 吴语/粤语/闽南语/四川话 |
| 🔀 Code-Switch | 中英混杂自然转录 |
| 🎵 歌曲识别 | 中英文歌词,伴奏场景高精度 |
| 🔊 强噪音 | 高噪音/远场拾音鲁棒识别 |
| 👥 多说话人 | 会议等多人交叉对话 |
| 📝 原生标点 | 结合韵律与语义自动标点 |
🆓 ASR 已开源 — GitHub / HuggingFace
⚙️ 配置 / Setup
环境变量
# TTS API Key(独立于模型推理 Key)
export MIMO_API_KEY="your-tts-api-key"
# ASR API Key(如与 TTS 相同可复用)
export MIMO_ASR_KEY="your-asr-api-key"
或通过 OpenClaw 配置:
openclaw config set skills.entries.mimo-tts-asr.apiKey "your-key"
⚠️ TTS/ASR 的 API Key 独立于模型推理 Key,需前往 platform.xiaomimimo.com 申请。
🎙️ TTS — 语音合成
基础用法
python3 "{baseDir}/scripts/tts.py" "要合成的文本" -o output.wav
参数说明
| 参数 | 默认值 | 说明 |
|---|
text | (必填) | 要合成的文本 |
-o | output.wav | 输出文件路径 |
-m | tts | 模型:tts / voice-design / voice-clone |
-v | mimo_default | 音色(见音色列表) |
-s | 无 | 风格标签 |
-f | wav | 音频格式:wav / mp3 / ogg |
--voice-desc | 无 | VoiceDesign:音色描述文本 |
--ref-audio | 无 | VoiceClone:参考音频路径 |
--user-msg | 无 | 用户角色上下文(调整语气) |
--api-key | 环境变量 | API Key 覆盖 |
--max-retries | 3 | 最大重试次数 |
--list-voices | — | 列出可用音色 |
--list-formats | — | 列出可用格式 |
音色列表(MiMo-V2.5-TTS)
| 名称 | voice 参数 | 说明 |
|---|
| MiMo-默认 | mimo_default | 通用女声 |
| MiMo-中文 | default_zh | 中文女声 |
| MiMo-英文 | default_en | 英文女声 |
| MiMo-男声 | mimo_male | 男声 |
| MiMo-童声 | mimo_child | 童声 |
| MiMo-粤语 | mimo_cantonese | 粤语 |
| MiMo-四川话 | mimo_sichuan | 四川话 |
🎧 试听音色:MiMo Studio
风格标签
| 风格 | 场景 | 风格 | 场景 |
|---|
| 可爱 | 撒娇、软萌 | 悲伤 | 悲伤、失落 |
| 开心 | 欢快、兴奋 | 愤怒 | 愤怒、激动 |
| 东北话 | 方言、搞笑 | 平静 | 平静、舒缓 |
| 悄悄话 | 神秘、低语 | 惊讶 | 惊讶、意外 |
| 孙悟空 | 角色扮演 | 变快/变慢 | 语速控制 |
| 唱歌 | 儿歌、旋律 | | |
可组合:-s "开心 变快" / -s "可爱 悄悄话" / -s "悲伤 变慢"
行内音频标签
在文本中插入精细控制:
(停顿) (叹气) (笑声) (清嗓子) (耳语) (紧张) (小声) (语速加快) (深呼吸) (沉默片刻)
示例
# 基础合成
python3 "{baseDir}/scripts/tts.py" "你好,今天天气真好" -o hello.wav
# 方言
python3 "{baseDir}/scripts/tts.py" "哎呀妈呀,这天儿也忒冷了吧" -s "东北话" -o dongbei.wav
# 英文
python3 "{baseDir}/scripts/tts.py" "Hello, how are you?" -v default_en -o hello_en.wav
# 情感
python3 "{baseDir}/scripts/tts.py" "明天就是周五了,真开心!" -s "开心 变快" -o happy.wav
# 唱歌
python3 "{baseDir}/scripts/tts.py" "一闪一闪亮晶晶" -s "唱歌" -o sing.wav
# 男声 / 童声 / 方言
python3 "{baseDir}/scripts/tts.py" "大家好" -v mimo_male -o male.wav
python3 "{baseDir}/scripts/tts.py" "妈妈我要吃糖" -v mimo_child -o child.wav
python3 "{baseDir}/scripts/tts.py" "你好,今日天气好好" -v mimo_cantonese -o cantonese.wav
python3 "{baseDir}/scripts/tts.py" "这个火锅巴适得很" -v mimo_sichuan -o sichuan.wav
# MP3 / OGG
python3 "{baseDir}/scripts/tts.py" "测试" -f mp3 -o output.mp3
python3 "{baseDir}/scripts/tts.py" "测试" -f ogg -o output.ogg
# 🎨 VoiceDesign — 从描述生成新音色
python3 "{baseDir}/scripts/tts.py" "你好,欢迎来到我的世界" \
-m voice-design \
--voice-desc "一位年迈的东欧裔学者,低沉、略带嘶哑,说话节奏缓慢" \
-o scholar.wav
python3 "{baseDir}/scripts/tts.py" "元气满满的一天开始啦!" \
-m voice-design \
--voice-desc "元气满满的少女,声线清脆,语尾带一点上扬" \
-o genki.wav
# 🔁 VoiceClone — 用参考音频克隆音色
python3 "{baseDir}/scripts/tts.py" "这是克隆后的声音" \
-m voice-clone \
--ref-audio reference.wav \
-o cloned.wav
🎧 ASR — 语音识别
API 调用
python3 "{baseDir}/scripts/asr.py" audio.wav
python3 "{baseDir}/scripts/asr.py" audio.mp3 -o transcript.txt
python3 "{baseDir}/scripts/asr.py" audio.wav --lang zh --format json
参数说明
| 参数 | 默认值 | 说明 |
|---|
audio | (必填) | 音频文件路径(wav/mp3/ogg/m4a/flac) |
-o | stdout | 输出文件路径(默认打印到终端) |
--lang | auto | 语言:auto / zh / en / ja / ko |
--format | text | 输出格式:text / json / srt |
--api-key | 环境变量 | API Key 覆盖 |
--max-retries | 3 | 最大重试次数 |
输出格式
| 格式 | 说明 | 适用场景 |
|---|
text | 纯文本 | 快速查看 |
json | 带时间戳和置信度 | 程序处理 |
srt | SRT 字幕格式 | 视频字幕 |
本地部署(开源模型)
ASR 已开源,支持本地部署:
# 克隆仓库
git clone https://github.com/XiaomiMiMo/MiMo-V2.5-ASR.git
cd MiMo-V2.5-ASR
# 安装依赖
pip install -r requirements.txt
# 使用 HuggingFace 权重
python inference.py --audio audio.wav --output result.txt
📖 详细文档:github.com/XiaomiMiMo/MiMo-V2.5-ASR
🤗 在线体验:huggingface.co/spaces/XiaomiMiMo/MiMo-V2.5-ASR
示例
# 基础转录
python3 "{baseDir}/scripts/asr.py" recording.wav
# 保存到文件
python3 "{baseDir}/scripts/asr.py" meeting.mp3 -o meeting.txt
# 指定语言
python3 "{baseDir}/scripts/asr.py" english.mp3 --lang en
# JSON 格式(带时间戳)
python3 "{baseDir}/scripts/asr.py" audio.wav --format json
# SRT 字幕
python3 "{baseDir}/scripts/asr.py" video_audio.wav --format srt -o subtitles.srt
🔗 TTS + ASR 联合工作流
# 1. 先识别一段音频
python3 "{baseDir}/scripts/asr.py" input.wav -o transcript.txt
# 2. 修改文本后重新合成(用不同音色)
python3 "{baseDir}/scripts/tts.py" "$(cat transcript.txt)" -v mimo_male -o output.wav
# 3. 克隆音色后重新演绎
python3 "{baseDir}/scripts/tts.py" "$(cat transcript.txt)" \
-m voice-clone --ref-audio original.wav -o cloned.wav
📋 交付
TTS 输出
MEDIA:output.wav
ASR 输出
直接回复转录文本,或保存到文件后回复路径。
故障排查
| 错误 | 原因 | 解决 |
|---|
| 401 Invalid API Key | Key 未配置或格式错误 | 确认已配置 TTS/ASR 专用 Key |
| 429 Too Many Requests | 触发限流 | 等几秒后重试(脚本自动重试) |
| 500 Server Error | 服务端异常 | 稍后重试 |
| 文件不存在 | 音频路径错误 | 检查文件路径 |
⚡ 推理性能优化 / Inference Optimization
GPU 专属优化(效果最大)
1. 开启半精度推理
加载模型添加 torch.float16,显存减半、速度翻倍:
model = AutoModelForCausalLM.from_pretrained(
"XiaomiMiMo/MiMo-V2.5-TTS",
torch_dtype=torch.float16, # 半精度
device_map="auto"
)
2. 开启 CUDA 流 + 异步推理
避免单线程串行阻塞,适合连续 TTS/ASR 请求:
stream = torch.cuda.Stream()
with torch.cuda.stream(stream):
output = model.generate(input_ids, **kwargs)
stream.synchronize()
3. 关闭梯度计算
推理固定加上下文,减少运算开销:
with torch.no_grad():
output = model.generate(input_ids, **kwargs)
CPU 弱机优化(无独显必用)
1. 启用 ONNX Runtime 量化
将精简模型转为 ONNX + INT8 量化,CPU 速度提升 40%~60%:
import onnxruntime as ort
session = ort.InferenceSession(
"model_quant.onnx",
providers=["CPUExecutionProvider"]
)
2. 设置 CPU 核心绑定 + 推理线程数
import os
os.environ["OMP_NUM_THREADS"] = "4" # 推理线程数
os.environ["MKL_NUM_THREADS"] = "4" # MKL 线程数
os.environ["KMP_AFFINITY"] = "granularity=fine,compact,1,0" # CPU 核心绑定
3. 禁用 MKL 冗余加速 + 限制内存
防止老旧设备闪退:
os.environ["MKL_ENABLE_INSTRUCTIONS"] = "AVX2" # 指令集
os.environ["MALLOC_TRIM_THRESHOLD_"] = "0" # 及时释放内存
模型推理参数调优
1. 调低采样步数 + 精简降噪系数
精简模型不需要超高降噪:
output = model.generate(
input_ids,
num_inference_steps=20, # 默认50→20,速度提升2.5x
denoising_strength=0.5, # 默认0.7→0.5
)
2. 关闭不必要的情感/风格分支
只保留基础人声输出,减少计算:
output = model.generate(
input_ids,
emotion_prediction=False, # 关闭情感预测
style_branch=False, # 关闭风格冗余分支
)
快速配置脚本
使用 --optimize 参数自动应用优化:
# GPU 半精度 + 异步
python3 "{baseDir}/scripts/tts.py" "你好" --optimize gpu -o output.wav
# CPU ONNX 量化
python3 "{baseDir}/scripts/tts.py" "你好" --optimize cpu -o output.wav
# 轻量模式(关闭情感/风格分支)
python3 "{baseDir}/scripts/tts.py" "你好" --optimize lite -o output.wav
📋 版本历史
v2.5.9 (2026-04-24)
- ⚡ 新增推理性能优化指南(GPU/CPU 双适配)
- ⚡ GPU:半精度推理、CUDA 流异步、关闭梯度计算
- ⚡ CPU:ONNX 量化、线程绑定、内存限制
- ⚡ 参数调优:采样步数、降噪系数、关闭冗余分支
- ✨ 新增
--optimize 快速配置参数(gpu/cpu/lite)
v2.5.5 (2026-04-24)
- 🏷️ 改名:Mimo TTS ASR 2.55 FREE
- ⭐ 限时免费:三款 TTS 模型 + ASR 全部免费使用
- 📚 文档链接优化
v2.5.4 (2026-04-24)
- ✨ 新增 VoiceDesign(音色设计)模型支持
- ✨ 新增 VoiceClone(音色克隆)模型支持
- ✨ 新增官方资源链接汇总
- ✨ ASR 新增本地部署文档(开源模型)
- 📚 文档优化:对齐官方发布说明
v2.5.2 (2026-04-24)
- ✨ TTS + ASR 一体化
- ✨ 7 种 TTS 音色 + 方言 + 情感控制
- ✨ ASR 支持 auto/zh/en/ja/ko 多语言
- ✨ ASR 输出格式:text / json / srt
- ✨ 行内音频标签精细控制
- ✨ MP3/OGG/WAV 多格式支持
- ✨ 自动重试 + 限流处理