Install
openclaw skills install video-transcript-method视频文字稿提取方法。核心能力:将任何在线视频的语音内容提取为结构化文字稿(带时间戳+元信息+要点总结)。覆盖从视频URL解析、音频提取、CC字幕检测、Whisper语音识别、元信息获取、语义分段到结构化文字稿输出的全流程。通用方法,不绑定任何特定视频平台。触发词:视频文字稿、视频转文字、字幕提取、语音转录、video transcript、subtitle extraction、speech to text。
openclaw skills install video-transcript-method视频的核心信息通常在语音中。文字稿提取的本质是从视频载体中剥离语音信息并结构化——先判断语音是否承载核心信息,再选择最高效的提取路径(CC字幕优先,Whisper兜底),最后按语义逻辑分段整理为可阅读的结构化文档。
CC字幕是UP主精心校对的,准确率接近100%;Whisper语音识别准确率约85-95%。有CC字幕时绝对优先用字幕,无字幕时才走Whisper。
适用范围广泛。 任何有语音的在线视频(B站、YouTube、抖音、播客、会议录像)都可以用本方法提取文字稿。
yt-dlp --list-subs)
yt-dlp -f "bestaudio" --extract-audio --audio-format mp3
ssl._create_default_https_context = ssl._create_unverified_context| 模型 | 大小 | 中文效果 | 适用场景 |
|---|---|---|---|
| tiny | 39M | 差 | 快速预览 |
| base | 74M | 一般 | 短视频(<5min) |
| small | 244M | 较好 | 一般视频 |
| medium | 1.5G | 好 | 推荐(默认) |
| large | 3G | 最佳 | 长视频/专业需求 |
默认使用medium模型;FP16不支持时自动降级FP32。
提取完成后逐项验证,五项全部通过才算完成:
| # | 验证项 | 说明 |
|---|---|---|
| 1 | ⬜ 内容完整性 | 覆盖视频的全部语音内容,无遗漏段落 |
| 2 | ⬜ 时间戳准确 | 时间戳与视频实际进度对应(误差≤3秒) |
| 3 | ⬜ 语义分段合理 | 按内容逻辑分段,非机械按时间切割 |
| 4 | ⬜ 要点提炼准确 | 要点总结忠实反映视频核心观点,无曲解 |
| 5 | ⬜ 格式规范 | 输出格式符合目标平台要求 |
danmaku弹幕不算字幕;未登录时可能无法获取CC字幕对应任务: T0-01 ~ T0-06
适用场景: 任何在线视频需要提取为结构化文字稿
提取范本:
## 文字稿提取记录
### Step 1:视频源定位(T0-01)
**视频URL**:________
**平台**:________(B站/YouTube/抖音/________)
**视频ID**:________
| 字段 | 值 |
|------|-----|
| 标题 | ________ |
| 作者 | ________ |
| 播放量 | ________ |
| 发布时间 | ________ |
| 时长 | ________ |
### Step 2:字幕检测(T0-02)
**CC字幕可用**:⬜是 / ⬜否
**字幕语言**:________
**提取路径**:⬜CC字幕直接提取 / ⬜Whisper语音识别
### Step 3:音频提取与识别(T0-03/T0-04)
**音频文件**:________
**识别模型**:________(tiny/base/small/medium/large)
### Step 4:语义分段(T0-05)
| 章节 | 时间范围 | 主题 | 核心内容 |
|------|---------|------|---------|
| ________ | [00:00-03:15] | ________ | ________ |
| ________ | [03:15-08:42] | ________ | ________ |
| ... | ... | ... | ... |
### Step 5:要点提炼(T0-06)
| 方法/要点 | 核心思路 | 具体操作 |
|-----------|---------|---------|
| ________ | ________ | ________ |
| ________ | ________ | ________ |
**金句**: "________"
**输出文件**:________(.txt/.md)
范本要点:
________ 为待用户提供的内容,不可AI编造yt-dlp -f "bestaudio" --extract-audio --audio-format mp3 -o "<output_dir>/audio.%(ext)s" "<视频URL>"
yt-dlp --list-subs "<视频URL>"
通过WebFetch获取视频标题、作者、播放量等元信息。
使用scripts/transcribe.py执行Whisper语音识别。