mimotts25-plus (TTS增强版)

Other

小米 MiMo TTS 2.5 Plus — 增强版语音合成。兼容官方接口,支持预置音色/声音设计/克隆/导演模式。

Install

openclaw skills install mimotts25-plus

MiMo TTS 2.5 Plus

核心原则: 情感/语气指令放 user 消息(--context),要念的文字放 assistant 消息(--text)。指令越具体越有画面感,声音越自然。

铁律:--context 永远不留空

没有情感指令 = 机器人朗读。哪怕用户只说"念一句你好",也必须推断情感写进 --context

推断方法: 想象真人在什么场景说这句话,用画面感描述(情绪底色 + 语速节奏 + 声音质感,至少两项):

  • "说早上好" → --context "刚睡醒的慵懒带元气,语速偏慢,声音柔和温暖"
  • "念:对不起" → --context "真诚道歉,声音低沉柔和,语速放慢,尾音下沉"
  • 长文本(超2句)→ 描述段落内的情绪变化走向

文本增强:--text 合适位置插入音频标签(每2-3句一个,不过度): 对不起,我来晚了(歉意)对不起……[轻叹]我来晚了

完整示例:

python3 scripts/mimo_tts.py \
  --text "(温柔)晚安……[轻声]今天辛苦了,好好休息。" \
  --voice "冰糖" \
  --context "深夜安慰,像在耳边轻声说话,语速很慢,声音轻柔绵软,带一丝让人安心的倦意"

环境变量

变量说明必需
MIMO_API_KEYAPI 密钥
MIMO_API_BASEAPI 端点(默认 https://token-plan-cn.xiaomimimo.com/v1可选
MIMO_OUTPUT默认输出路径可选

已知集群:中国 https://token-plan-cn.xiaomimimo.com/v1(默认)、公网 https://api.xiaomimimo.com/v1、海外以官方公布为准。可通过环境变量或 tts.py --base-url 切换。

模型与脚本

模型脚本用途
mimo-v2.5-ttsmimo_tts.py预置音色(支持唱歌)
mimo-v2.5-tts-voicedesignmimo_tts_voicedesign.py文本描述定制音色
mimo-v2.5-tts-voiceclonemimo_tts_voiceclone.py音频样本复刻音色
统一入口tts.py增强快捷模式(--design / --clone / --base-url

选择:描述音色形象→voicedesign,给音频文件→voiceclone,其他→预置音色,复杂角色→导演模式。

用法

# 预置音色
python3 scripts/mimo_tts.py --text "你好" --voice "冰糖" --context "温柔,语速稍慢"
# 声音设计
python3 scripts/mimo_tts_voicedesign.py --context "青年女性,活泼元气" --text "你好呀!"
# 声音克隆
python3 scripts/mimo_tts_voiceclone.py --voice-file sample.mp3 --text "你好"
# 统一入口
python3 scripts/tts.py "你好" -v 冰糖
python3 scripts/tts.py "你好呀" --design "22岁女性,声音甜美"
python3 scripts/tts.py "你好" --clone sample.mp3
python3 scripts/tts.py "你终于来了" --user-msg "角色:22岁活泼少女..."

预置音色

Voice ID语言/性别风格
冰糖(默认)中文女活泼少女
茉莉中文女知性女声
苏打中文男阳光少年
白桦中文男成熟男声
MiaEN FemaleLively
ChloeEN FemaleSweet Dreamy
MiloEN MaleSunny
DeanEN MaleSteady Gentle

音频标签(放在 --text 中)

整体风格(文本开头 (风格)):开心 悲伤 愤怒 温柔 慵懒 磁性 高冷 活泼 东北话 粤语 唱歌 夹子音 御姐音 正太音

行内标签 [标签][停顿] [长停顿] [语速加快] [语速放缓] [轻声] [低语] [叹气] [深呼吸] [哽咽] [笑] [大笑] [抽泣] [颤抖] [气声] [激动] [疲惫] [撒娇]

示例:(紧张)呼……冷静。[深呼吸]不就是面试吗……[语速加快]自我介绍背了五十遍了。

导演模式(高级)

--context 中写角色、场景、指导三要素,用于复杂情感/角色配音:

  • 角色:身份、性格、说话习惯
  • 场景:发生了什么、和谁说话、情绪位置
  • 指导:语速、气息、停顿、重音、音色质感、情绪起伏

音色描述(Voicedesign)

--context 必写四维度:性别+年龄、声音质感、情绪底色、语速节奏。可选:角色人设、说话风格、场景。1-4句即可。 注意:避免矛盾特征、音质效果词(混响/EQ)、模糊词(普通的/正常的)。合成文本要贴合音色。

交付

生成后:MEDIA:output.mp3

配置

  1. 获取密钥:小米 MiMo 开放平台
  2. export MIMO_API_KEY=your-keyopenclaw config set skills.entries.mimotts25-plus.apiKey "your-key"