Qclaw Speaker

Other

四引擎本地轻量CPU TTS语音播报系统。让 QClaw/OpenClaw 像豆包一样自然开口说话。 引擎:Edge TTS(在线微软神经)→ sherpa-onnx Piper(离线13MB ONNX)→ Windows SAPI(离线原生)。 支持 11 款中文音色、自动语音播报、引擎智能降级、一键安装。 Use when: 用户说"语音播报"/"说话"/"开口"/"读出来"/"念给我听"/"tts", 要求文字转语音, 需要自动语音回复, 无障碍/驾车/做饭场景。

Install

openclaw skills install qclaw-speaker

🎙️ QClaw Speaker — 让 AI 自然开口说话

四引擎本地轻量 CPU TTS 语音播报系统。无需 GPU,无需云 API,13MB 模型即可在 CPU 上实时合成中文语音,流畅度媲美云服务。

如果说 video-subtitle-extractor 是给大模型装上了"视频字幕眼睛", 那么 qclaw-speaker 就是给它装上了"嘴巴",像豆包一样自然开口!


🚀 Quick Start

# 一键安装(2引擎 + 默认音色)
python scripts/install.py

# 说话!
python scripts/speak.py "你好,我是QClaw,很高兴为你服务!"
python scripts/speak.py "大家好" --voice yunxi      # 男声
python scripts/speak.py "离线播报" --engine sherpa   # 本地离线
python scripts/speak.py "系统原生" --engine win       # Windows自带

# 切换默认音色
python scripts/speak.py --set-voice xiao_ya

# 开启自动播报
python scripts/speak.py --auto-speak on

📊 2025-2026 本地轻量 CPU 中文 TTS 模型全景对比

技能内置引擎对比

排名引擎大小RAM中文CPU速度流式离线说明
🥇Edge TTS0~50MB⭐⭐⭐⭐⭐<1s微软神经TTS,免费在线
🥈Sherpa+Piper13MB~200MB⭐⭐⭐⭐RTF 0.05ONNX推理,CPU极快
🥉Windows SAPI0~50MB⭐⭐⭐<0.1s系统原生,零配置

其他值得关注的候选(可扩展)

模型大小RAM中文CPU速度流式优势
Kokoro v1.085MB~500MB⭐⭐⭐⭐RTF 0.04多语言,极快,ONNX
Piper C++ 原生30MB~300MB⭐⭐⭐⭐RTF 0.03纯C++,最快,独立
Matcha-TTS72MB~500MB⭐⭐⭐⭐⭐RTF 0.05中文轻量最优质量
ChatTTS 2.0600MB~2GB⭐⭐⭐⭐⭐RTF 0.5最自然人声(非实时)
MeloTTS160MB~1GB⭐⭐⭐⭐MIT开源,微软出品
ZipVoice(int8)104MB~600MB⭐⭐⭐⭐⭐RTF 0.08中英混合极好
espeak-ng6MB~100MB⭐⭐闪电超轻量,全语言

决策指南

需要离线? ─YES→ 选择 Sherpa+Piper (13MB) 或 Windows SAPI (0MB)
需要实时流式? ─YES→ Edge TTS / Sherpa / Kokoro
最小RAM? ─→ Windows SAPI (50MB) / Sherpa (200MB)
最佳中文? ─→ Edge TTS (在线) / Matcha-TTS (离线72MB)
最快速度? ─→ Piper C++ 原生 (RTF 0.03) / Kokoro (RTF 0.04)

🎤 四引擎详解

特性☁️ Edge TTS🏠 Sherpa+Piper💻 Win SAPI
网络需要无需无需
模型下载13MB
RAM占用~50MB~200MB~50MB
首字延迟~0.5s<0.1s<0.05s
中文音色6款3款1款
流式输出
隐私数据上云本地处理本地处理
安装pip edge-ttspip sherpa-onnx系统自带

自动降级逻辑

请求播报
  ├── 1. Edge TTS (品质最优)
  ├── 2. Sherpa-onnx (本地离线)  ← 网络不佳时
  └── 3. Windows SAPI (终极兜底)  ← 都不行时

🎨 内置音色库(11款)

Edge TTS — 6款在线微软神经语音

音色风格推荐场景
xiaoxiao晓晓,标准女声默认通用
yunxi云希,活泼男声讲解/教程
xiaoyi晓依,温柔女声情感内容
xiaochen晓辰,自然男声新闻播报
yunyang云扬,沉稳男声正式场合
xiaohan晓涵,少女声轻快内容

Sherpa-onnx Piper — 3款本地离线

音色大小风格RTF
xiao_ya13MB小雅,温暖女声0.05
chaowen13MB超稳,沉稳男声0.05
huayan64MB花颜,柔和女声0.10

Windows SAPI — 1款系统原生

音色大小风格
huihui0慧慧,系统中文语音

🏗️ 技术架构

┌─────────────────────────────────────────────────────────┐
│                     QClaw / OpenClaw                     │
│                                                          │
│  ┌──────────┐     ┌──────────────┐     ┌─────────────┐ │
│  │ LLM 输出  │ →   │  speak.py    │ →   │  音频输出    │ │
│  │ (文本)    │     │  引擎调度器    │     │  (WAV/MP3)  │ │
│  └──────────┘     └──────┬───────┘     └─────────────┘ │
│                          │                               │
│            ┌─────────────┼─────────────┐                │
│            ▼             ▼             ▼                │
│     ┌──────────┐  ┌──────────┐  ┌──────────┐          │
│     │ Edge TTS │  │ Sherpa   │  │ Win SAPI │          │
│     │ (在线)    │  │ (ONNX)   │  │ (原生)    │          │
│     │ 0MB      │  │ 13MB     │  │ 0MB      │          │
│     └──────────┘  └────┬─────┘  └──────────┘          │
│                        │                                │
│                 ┌──────▼──────┐                        │
│                 │  Piper VITS │                        │
│                 │  (int8量化)  │  纯CPU, <0.1s延迟     │
│                 └─────────────┘                        │
└─────────────────────────────────────────────────────────┘

技术栈

技术版本说明
在线引擎edge-ttslatest微软神经网络,免费
离线引擎sherpa-onnx1.13.2C++ ONNX Runtime
模型Piper VITS (int8)-13MB, 中文, CPU
本地引擎pyttsx3 (SAPI)latestWin原生语音
音频soundfilelatestWAV 读写
ORT修复onnxruntime1.26+自动覆盖sherpa内置旧版DLL

🧠 Auto-Speak 自动语音播报

开启后,每次 AI 回复自动朗读:

用户: 开启语音播报
→ config.json: auto_speak = true
→ 后续每次回复自动调用 TTS
→ 语音消息发送至当前聊天

关闭:

用户: 关闭语音播报 / 安静 / 别说了
→ config.json: auto_speak = false

一个答案只会开一次口,工具调用/系统消息不会触发朗读。


📦 安装

# 全自动安装(edge-tts + pyttsx3 + sherpa-onnx)
python scripts/install.py

# 仅安装在线引擎
python scripts/install.py --edge-only

# 仅安装离线引擎
python scripts/install.py --win-only

# 下载 sherpa-onnx 模型
python scripts/install.py --sherpa xiao_ya

# 检查安装状态
python scripts/install.py --check

🔧 CLI 参考

python scripts/speak.py "文本" [选项]

选项:
  --voice, -v    NAME      音色名称
  --engine, -e    ENGINE   引擎: auto / edge / sherpa / win
  --speed, -s     FLOAT    语速 (0.5-2.0, 默认 1.0)
  --output, -o    PATH     输出音频文件
  --list-voices            列出全部音色
  --set-voice     NAME     设置默认音色
  --set-speed     FLOAT    设置默认语速
  --auto-speak    on|off   开启/关闭自动语音播报
  --config                 显示当前配置
  --config-path            显示配置文件路径

📊 实测性能(Win 11, i7, 16GB)

引擎模型首句RTFRAM
edgexiaoxiao0.5s50MB
sherpaxiao_ya (int8)0.08s0.05200MB
winhuihui0.03s50MB

🔧 Troubleshooting

问题解决
No module named 'edge_tts'pip install edge-tts
No module named 'pyttsx3'pip install pyttsx3
sherpa-onnx ORT version mismatch已自动修复:skills/scripts 自动覆盖旧版 ORT DLL
模型未找到python scripts/install.py --sherpa xiao_ya
Edge TTS 超时网络问题,自动降级到 sherpa/win
中文 SAPI 不可用安装 Windows 中文语言包

🆚 与现有 TTS 技能对比

维度本技能qwen-ttsedge-ttssherpa-onnx-tts
引擎数4个1个1个1个
模型大小13MB1.7GB0需自行下载
中文支持❌(英文为主)
智能降级
自动播报
离线可用

📝 Changelog

v1.1.0 — 四引擎 + Sherpa打通

  • New: Windows SAPI (pyttsx3) 本地引擎,零配置离线
  • Fix: sherpa-onnx ORT DLL 自动覆盖(系统 1.26→覆盖sherpa内置1.17)
  • Fix: Piper 模型 lexicon 路径显式传入
  • Change: 引擎自动降级 edge → sherpa → win
  • New: 6款 Edge TTS 音色(+yunyang/xiaohan)
  • New: ORT auto-fix (_ensure_ort_fix)
  • Docs: 2025-2026 本地轻量 CPU 中文 TTS 模型全景对比

v1.0.0 — Initial Release

  • Edge TTS + sherpa-onnx 双引擎
  • 3款 Piper 中文音色 (xiao_ya/chaowen/huayan)
  • 3款 Edge 中文音色 (xiaoxiao/yunxi/xiaoyi)
  • Auto-speak 自动语音播报模式
  • 流式 TTS 支持
  • 一键安装脚本