Qwen3-TTS Voice Synthesis

Other

Qwen3-TTS 本地语音合成。支持音色克隆、声音设计、多角色对话。琪琪OPC首选TTS,失败回退到 tts-cosyvoice (Edge TTS)。

Install

openclaw skills install tts-qwen3

Qwen3-TTS 本地语音合成

基于 Qwen3-TTS 1.7B 模型,支持音色克隆 + 声音设计 + 多角色对话。 琪琪OPC 首选 TTS,失败时回退到 tts-cosyvoice (Edge TTS)。

优先级

Qwen3-TTS(本地GPU,音色克隆+设计)→ Edge TTS(tts-cosyvoice,云端回退)

琪琪OPC 音色库

6 个角色音色,通过 ComfyUI API 调用:

角色音色名方式说明用途
🐰 琪琪qiqi_clone克隆ref_audio=qiqi_voice_v3.wav琪琪对话
📖 旁白narrator_teacherVoiceDesignseed=100, 温暖女声叙事
👦 男孩boy_childVoiceDesignseed=200, 活泼8岁儿童男角
👧 女孩girl_childVoiceDesignseed=300, 甜美7岁儿童女角
👨 大人男adult_maleVoiceDesignseed=400, 沉稳成年男角
👩 大人女adult_femaleVoiceDesignseed=500, 优雅成年女角

脚本

单角色 TTS

python3 {baseDir}/scripts/qwen_tts.py \
  --text "你好,我是琪琪" \
  --voice qiqi_clone \
  --output /tmp/output.wav

多角色对话 TTS

python3 {baseDir}/scripts/qwen_tts_dialogue.py \
  --script "琪琪:你好呀!\n旁白:琪琪开心地笑了。" \
  --output /tmp/dialogue.wav \
  --srt /tmp/dialogue.srt

选项

选项默认说明
--text(必需)要合成的文本
--voicenarrator_teacher音色名(见音色库)
--output/tmp/qwen_tts_output.wav输出文件路径
--languageChinese语言
--model1.7B模型大小 (0.6B/1.7B)
--attentionsdpa注意力机制
--fallback-edgetrue失败时回退到 Edge TTS

对话脚本格式

角色名: 台词内容
角色名: 台词内容

角色名映射到音色库中的音色。旁白 映射到 narrator_teacher

依赖

  • ComfyUI 运行中(localhost:8188)
  • ComfyUI-Qwen-TTS 插件已安装
  • Qwen3-TTS 模型已下载(~/ComfyUI/models/qwen-tts/)
  • comfyui-venv Python 环境

回退策略

当 Qwen3-TTS 不可用时(ComfyUI 未启动 / GPU 显存不足 / 生成失败), 自动回退到 Edge TTS (tts-cosyvoice):

  • 琪琪 → zh-CN-XiaoyiNeural
  • 旁白 → zh-CN-XiaoxiaoNeural
  • 男孩 → zh-CN-YunxiNeural
  • 女孩 → zh-CN-XiaoyiNeural
  • 大人男 → zh-CN-YunjianNeural
  • 大人女 → zh-CN-XiaoxiaoNeural

版本: v1.0 | 琪琪OPC 首选 TTS | 基于 Qwen3-TTS + ComfyUI