{"skill":{"slug":"asr-skill","displayName":"Asr Skill","summary":"基于Qwen3-ASR-0.6B的语音转文字Skill，支持22种中文方言和多语言识别，让你可以用方言和OpenClaw交流。","description":"---\nname: Qwen 方言语音识别\ndescription: 基于Qwen3-ASR-0.6B的语音转文字Skill，支持22种中文方言和多语言识别，让你可以用方言和OpenClaw交流。\nversion: 1.0.0\nauthor: OpenClaw Team\nlicense: Apache-2.0\nicon: 🎤\ncategory: audio\ntags:\n  - asr\n  - speech-recognition\n  - dialect\n  - qwen\n  - 语音识别\n  - 方言\nmetadata:\n  openclaw:\n    requires:\n      env:\n        - PORT\n        - HOST\n        - MODEL_NAME\n        - DEVICE\n        - DTYPE\n      bins:\n        - node\n        - python3\n---\n\n# Qwen 方言语音识别 Skill\n\n基于通义千问Qwen3-ASR-0.6B模型的语音转文字服务，支持22种中文方言和30种语言识别，让用户可以用方言直接和OpenClaw交流。\n\n## ✨ 功能特性\n\n- 🎤 **多方言支持**：支持22种中文方言识别\n- 🌐 **多语言**：支持30种国际语言\n- 💻 **CPU友好**：无需GPU，普通服务器即可运行\n- 🔍 **自动检测**：自动识别语言和方言类型\n- ⚡ **低延迟**：优化的CPU推理，接近实时响应\n- 🎯 **高准确率**：方言识别平均准确率超过90%\n- 🔌 **即插即用**：完美适配OpenClaw生态\n\n## 🗣️ 支持的中文方言\n\n安徽话、东北话、福建话、甘肃话、贵州话、河北话、河南话、湖北话、湖南话、江西话、宁夏话、山东话、陕西话、山西话、四川话、天津话、云南话、浙江话、粤语（香港口音）、粤语（广东口音）、吴语、闽南语。\n\n## 🚀 快速开始\n\n### 安装\n\n在OpenClaw中搜索「Qwen方言语音识别」，点击一键安装即可。\n\n### 手动安装\n\n```bash\n# 克隆项目\ngit clone <repository-url>\ncd qwen-asr-skill\n\n# 安装依赖\nnpm install\npip install -r requirements.txt\n\n# 启动服务\nnpm start\n```\n\n### 环境变量配置\n\n| 变量名 | 默认值 | 说明 |\n|--------|--------|------|\n| PORT | 3000 | 服务端口 |\n| HOST | 0.0.0.0 | 监听地址 |\n| MODEL_NAME | Qwen/Qwen3-ASR-0.6B | ASR模型名称 |\n| DEVICE | cpu | 运行设备（cpu/cuda） |\n| DTYPE | float32 | 数据类型 |\n| BATCH_SIZE | 4 | 批量处理大小 |\n\n## 🔧 使用方式\n\n安装并启用后，直接在OpenClaw中发送语音消息即可，系统会自动：\n1. 接收语音输入\n2. 调用本Skill进行语音转文字\n3. 将识别后的文字传给大模型\n4. 返回语音回答给用户\n\n你可以直接说方言，系统会自动识别，无需手动切换语言。\n\n## 📡 API 接口\n\n### POST /transcribe\n\n音频转文字接口\n\n**请求参数：**\n- `audio`：音频文件或base64编码的音频数据（必需）\n- `language`：指定语言/方言（可选，如：\"四川话\"、\"粤语\"等）\n- `timestamps`：是否返回时间戳（可选，默认false）\n\n**响应示例：**\n```json\n{\n  \"success\": true,\n  \"data\": {\n    \"text\": \"你好，我是四川人，今天吃火锅。\",\n    \"language\": \"Sichuan\",\n    \"confidence\": 0.98,\n    \"duration\": 1.23\n  }\n}\n```\n\n## 📊 性能指标\n\n- 推理速度：实时音频的1.5-2倍速（8核CPU）\n- 内存占用：6-8GB运行时\n- 支持音频时长：最长5分钟\n- 方言识别WER：<16%（平均）\n\n## 🔒 隐私保护\n\n- 所有语音处理在本地完成，不会上传到第三方服务器\n- 处理完的音频文件会自动删除，不会存储\n- 不收集任何用户语音数据和识别内容\n\n## 🤝 贡献\n\n欢迎提交Issue和Pull Request来改进这个Skill！\n\n## 📄 许可证\n\nApache-2.0 License","topics":["Asr","Qwen","方言","语音识别","Dialect"],"tags":{"asr":"1.2.0","dialect":"1.2.0","latest":"1.2.0","light":"1.2.0","minimal":"1.2.0","qwen":"1.2.0","speech-recognition":"1.2.0","chinese":"1.0.0"},"stats":{"comments":0,"downloads":682,"installsAllTime":26,"installsCurrent":3,"stars":0,"versions":4},"createdAt":1773074745674,"updatedAt":1778491792475},"latestVersion":{"version":"1.2.0","createdAt":1773078492983,"changelog":"v1.3.0: 极简版发布 - 仅0.6B模型，无强制对齐功能，减少内存占用和依赖","license":"MIT-0"},"metadata":{"setup":[{"key":"PORT","required":true},{"key":"HOST","required":true},{"key":"MODEL_NAME","required":true},{"key":"DEVICE","required":true},{"key":"DTYPE","required":true}],"os":null,"systems":null},"owner":{"handle":"yszheda","userId":"s17c19kc0srj58g09ays13rh3x83p136","displayName":"Shuai YUAN","image":"https://avatars.githubusercontent.com/u/1416342?v=4"},"moderation":{"isSuspicious":false,"isMalwareBlocked":false,"verdict":"clean","reasonCodes":["review.llm_review"],"summary":"Review: review.llm_review","engineVersion":"v2.4.24","updatedAt":1780089816258}}