Install
openclaw skills install tencentcloud-asr腾讯云语音识别 ASR Skill,适用于语音转文字、音频转写、字幕生成、会议转录、语音消息识别、 本地文件或 URL 音频识别。包含三种模式:一句话识别(<=60s 短音频)、录音识别极速版 (<=2h/100MB 中长音频快速同步返回)、录音识别(<=5h 长音频异步识别)。支持普通话、 英语、粤语、日语、韩语、德语等语种,以及中英粤混说和多种中文方言。
openclaw skills install tencentcloud-asr腾讯云语音识别(ASR),微信同款ASR引擎,历经亿级用户场景验证,稳定可靠。在中英混说场景下识别效果行业领先,精准流畅。支持普通话、方言及多语种识别,提供一句话识别、录音识别等全场景能力,是高性价比语音转文字首选。
inspect_audio.pysentence_recognize.py、flash_recognize.py 或 file_recognize.pyself_check.pypython3 <SKILL_DIR>/scripts/inspect_audio.py "<AUDIO_INPUT>"。ffmpeg / ffprobe 先自治安装:先执行 python3 <SKILL_DIR>/scripts/ensure_ffmpeg.py --execute,只有失败后才向用户求助。python3 <SKILL_DIR>/scripts/self_check.py,不要先让用户手工试脚本。SecretId、SecretKey、AppId~/.bashrc、~/.zshrc对话语言只能当作先验,不等于音频语种本身。若用户音频语种明显不同,按音频语种改。
| 场景 | 一句话识别 | 极速版 | 录音文件识别 | 备注 |
|---|---|---|---|---|
| 普通话 | 16k_zh | 16k_zh / 16k_zh_large | 16k_zh / 16k_zh_large | 默认首选 |
| 中英夹杂 | 16k_zh-PY | 16k_zh_en | 16k_zh_en | 混说优先 |
| 粤语 | 16k_yue | 16k_yue | 16k_yue | |
| 英语 | 16k_en | 16k_en | 16k_en / 16k_en_large | |
| 日语 | 16k_ja | 16k_ja | 16k_ja | |
| 韩语 | 16k_ko | 16k_ko | 16k_ko | |
| 多语种 / 语言不确定 | 指定具体语种 | 16k_multi_lang | 16k_multi_lang | 一句话识别没有多语自动识别引擎 |
如果有多个明显可选项:
16kHz、单声道、pcm_s16le、.wav<=60s 且 <=3MB:sentence_recognize.py<=2h 且 <=100MB:优先 flash_recognize.py<=5h,可走 file_recognize.py recfile_recognize.py recfile_recognize.py rec 真实失败时,再按错误决定是否进入本地下载 / 规范化 / 切片链命中 URL、大文件、切片、body vs URL 取舍时,再读 routing_strategy.md。
# 预检
python3 <SKILL_DIR>/scripts/inspect_audio.py "<AUDIO_INPUT>"
# 凭证自检
python3 <SKILL_DIR>/scripts/self_check.py
# 一句话识别
python3 <SKILL_DIR>/scripts/sentence_recognize.py "<AUDIO_INPUT>" --engine 16k_zh
# 极速版
python3 <SKILL_DIR>/scripts/flash_recognize.py "<AUDIO_INPUT>" --engine 16k_zh
# 录音文件识别
python3 <SKILL_DIR>/scripts/file_recognize.py rec "<AUDIO_INPUT_OR_URL>" --engine 16k_zh
# CLI transcription backend
python3 <SKILL_DIR>/scripts/cli_transcribe.py "<MEDIA_PATH_OR_URL>"
scripts/inspect_audio.py:音频探测scripts/ensure_ffmpeg.py:自治安装 ffmpeg / ffprobescripts/self_check.py:凭证与三种模式自检scripts/sentence_recognize.py:一句话识别scripts/flash_recognize.py:录音文件识别极速版scripts/file_recognize.py:录音文件识别异步任务scripts/cli_transcribe.py:CLI backend wrapper