Qwen ASR (C-based Offline)

部署

Offline Chinese and mixed Chinese-English speech-to-text recognition in pure C without Python or FFmpeg dependencies, suitable for edge devices.

Install

openclaw skills install @rightister/rightister-qwen-asr

qwen-asr — 离线中文语音识别（纯 C 实现）

使用 antirez/qwen-asr 的 qwen3-asr-0.6b 模型进行中文语音转文字，无 Python/GIL/FFmpeg 依赖，适合边缘部署。

依赖

平台	依赖项	说明
macOS	Accelerate.framework	系统自带，自动链接
Linux	OpenBLAS 或 Intel MKL	需手动安装

典型用法

# 转写音频（自动预处理为 16kHz/mono/WAV）
.skill qwen-asr --audio /path/to/audio.wav

# 指定模型（small=0.6B, large=1.7B）
.skill qwen-asr --audio /path/to/audio.wav --model large

# 指定线程数
.skill qwen-asr --audio /path/to/audio.wav --threads 4

输出

[中文] 现在已经可以用了吗？

支持中/英文混读（模型训练语料含双语）。

模型大小

模型	大小	推荐场景
`qwen3-asr-0.6b`	~1.7GB	推荐：低延迟、边缘设备
`qwen3-asr-1.7b`	~4.5GB	高精度（需 ≥4GB 内存）

注意事项

音频必须为 16kHz/mono/16-bit PCM WAV（脚本会自动转换非合规音频）
首次运行会下载模型（~1.7GB），后续无需重复下载
仅支持 .ogg/.mp3/.wav→.wav 预处理（FFmpeg 内置支持）
推理为纯离线，无需网络（模型下载阶段除外）

作者

GitHub: @antirez
技能封装: OpenClaw Agent

许可

MIT（qwen-asr）+ 阿里云 Qwen3 ASR Model License