audio-tools

Creative

音视频处理工具集。支持以下操作： - 从视频文件中提取音频并保存为 WAV 格式 - 对音频文件按指定开始时间和持续时长进行截取 - 播放指定的视频或音频文件（调用系统默认播放器） - 语音识别转文字（Whisper），输出 JSON 格式（含时间戳、置信度） - 提取音频/视频元数据（码率、采样率、时长、编码等）触发词：提取音频、截取音频、音频截取、剪切音频、播放视频、播放音频、视频转音频、wav提取、音频剪辑、从视频提取、audio extract、clip audio、play video、play audio、语音转文字、音频转录、语音识别、提取文字、transcribe、STT、查看音频信息、提取元数据、文件信息、码率、采样率、metadata

Install

openclaw skills install @risehorizon/emar-audio-tools

Audio Tools Skill

音视频处理工具集，支持三项核心功能：提取音频、截取音频片段、播放媒体文件。

工作目录

所有输入文件默认从 D:\workbuddy 读取，输出文件也保存到 D:\workbuddy（除非用户指定其他路径）。

环境要求

Python 版本

要求: Python 3.8 或更高版本
检查: 运行 python --version 确认

依赖检查

执行前会自动检查以下环境，缺失时给出安装指引：

# 检查环境状态
python D:\workbuddy\skills\audio-tools\scripts\audio_tools.py --check

检查内容包括：

Python 版本
ffmpeg / ffprobe / ffplay 可用性
moviepy 安装状态
openai-whisper 安装状态

依赖说明

本 Skill 优先使用 ffmpeg，查找优先级如下：

Skill 本地 bin 目录（D:\workbuddy\skills\audio-tools\bin\ffmpeg.exe）
系统 PATH 中的 ffmpeg
如均未找到，自动降级使用 moviepy（Python 库，首次使用时自动安装）

缺失依赖时的提示

如果 ffmpeg 和 moviepy 都未找到，脚本会输出：

[WARN] No media processing tool found!

[SOLUTION] Choose one of the following:

  Option 1 - Bundled ffmpeg (Recommended):
           Place ffmpeg.exe in: D:\workbuddy\skills\audio-tools\bin\

  Option 2 - System ffmpeg:
           Windows: winget install ffmpeg

  Option 3 - MoviePy (Python fallback):
           pip install moviepy

方式一：Bundled ffmpeg（推荐）

将 ffmpeg 放入 Skill 本地目录，实现零依赖部署：

D:\workbuddy\skills\audio-tools\
├── bin\
│   ├── ffmpeg.exe      ← 放入这里
│   └── ffprobe.exe     ← 可选，查时长用
├── scripts\
│   └── audio_tools.py
└── SKILL.md

方式二：系统 ffmpeg

# Windows - 使用 winget
winget install ffmpeg

# 或从 https://ffmpeg.org/download.html 下载，解压后将 bin 目录加入系统 PATH

方式三：moviepy（备选）

pip install moviepy

功能说明 & SOP

功能 1：提取视频音频

用户意图识别关键词：提取音频、视频转音频、从视频提取、wav 提取

执行流程：

确认输入视频文件路径（相对路径自动拼接工作目录 D:\workbuddy）
确认输出 WAV 文件路径（默认与输入同名，后缀改为 .wav，保存到 D:\workbuddy）
调用脚本执行提取
输出结果文件路径

调用脚本：

python D:\workbuddy\skills\audio-tools\scripts\audio_tools.py extract \
  --input "D:\workbuddy\video.mp4" \
  --output "D:\workbuddy\video.wav"

参数说明：

参数	必填	说明
`--input`	✅	输入视频文件路径（支持 mp4/mkv/avi/mov/flv 等）
`--output`	❌	输出 WAV 文件路径（默认：同目录同名 .wav）

功能 2：截取音频片段

用户意图识别关键词：截取音频、剪切音频、音频截取、音频剪辑、clip audio

执行流程：

确认输入音频文件路径
确认开始时间（--start，格式：秒数或 HH:MM:SS）
确认截取时长（--duration，单位：秒）
确认输出路径（默认：原文件名加 _clip 后缀）
调用脚本执行截取
输出结果文件路径

调用脚本：

python D:\workbuddy\skills\audio-tools\scripts\audio_tools.py clip \
  --input "D:\workbuddy\audio.wav" \
  --start 30 \
  --duration 60 \
  --output "D:\workbuddy\audio_clip.wav"

参数说明：

参数	必填	说明
`--input`	✅	输入音频文件路径（支持 wav/mp3/flac/aac 等）
`--start`	✅	开始时间，支持秒数（如 `30`）或时间格式（如 `00:00:30`）
`--duration`	✅	截取时长（秒）
`--output`	❌	输出文件路径（默认：原文件名加 `_clip` 后缀）

功能 3：播放媒体文件

用户意图识别关键词：播放视频、播放音频、play video、play audio、打开播放

执行流程：

确认媒体文件路径（相对路径自动拼接工作目录）
优先使用 ffplay（bundled 模式）播放
如 ffplay 不可用，回退到系统默认播放器
输出播放状态

播放工具优先级：

ffplay（Skill 本地 bin/ffplay.exe）- 格式支持最全，无系统依赖
系统默认播放器 - 用户习惯，界面友好

调用脚本：

python D:\workbuddy\skills\audio-tools\scripts\audio_tools.py play \
  --input "D:\workbuddy\video.mp4"

参数说明：

参数	必填	说明
`--input`	✅	媒体文件路径（视频或音频均可）

功能 4：语音识别转文字（Whisper）

用户意图识别关键词：语音转文字、音频转录、语音识别、提取文字内容、transcribe、STT

执行流程：

确认输入音频/视频文件路径
确认 Whisper 模型大小（默认 small，可选 tiny/base/small/medium/large）
确认语言（可选，默认自动检测）
执行转录，生成 JSON 和 TXT 两份输出
输出转录结果摘要

调用脚本：

# 基础用法（自动检测语言，使用 small 模型）
python D:\workbuddy\skills\audio-tools\scripts\audio_tools.py transcribe \
  --input "D:\workbuddy\lecture.wav"

# 指定语言和模型
python D:\workbuddy\skills\audio-tools\scripts\audio_tools.py transcribe \
  --input "D:\workbuddy\lecture.wav" \
  --model small \
  --language zh

参数说明：

参数	必填	说明
`--input`	✅	输入音频/视频文件路径
`--output`	❌	输出 JSON 路径（默认：同名.json）
`--model`	❌	Whisper 模型：`tiny/base/small/medium/large`（默认：small）
`--language`	❌	语言代码，如 `zh`/`en`/`ja`（默认：自动检测）

输出文件：

同名.json - 完整 JSON，包含文字、时间戳、置信度
同名.txt - 纯文本，仅文字内容

JSON 结构示例：

{
  "text": "完整转录文字...",
  "language": "zh",
  "duration": 120.5,
  "segments": [
    {
      "id": 0,
      "start": 0.0,
      "end": 5.2,
      "text": "第一段文字",
      "confidence": -0.1234,
      "no_speech_prob": 0.01
    }
  ]
}

功能 5：提取音频/视频元数据

用户意图识别关键词：查看音频信息、提取元数据、文件信息、码率、采样率、metadata

执行流程：

确认输入文件路径
优先使用 ffprobe 获取详细元数据
ffprobe 不可用时，使用 moviepy 获取基础信息
输出 JSON 格式元数据（可选保存到文件）

调用脚本：

# 终端输出元数据
python D:\workbuddy\skills\audio-tools\scripts\audio_tools.py metadata \
  --input "D:\workbuddy\audio.wav"

# 保存到 JSON 文件
python D:\workbuddy\skills\audio-tools\scripts\audio_tools.py metadata \
  --input "D:\workbuddy\video.mp4" \
  --output "D:\workbuddy\meta.json"

参数说明：

参数	必填	说明
`--input`	✅	输入音频/视频文件路径
`--output`	❌	输出 JSON 路径（默认：终端输出）

输出信息包括：

文件基础信息（大小、时长、格式）
音频流信息（编码、采样率、声道数）
视频流信息（编码、分辨率、帧率）
完整 ffprobe 原始数据（如可用）

AI 使用规范

路径处理：用户提供相对路径时，自动补全为 D:\workbuddy\<文件名>
工具检测：执行前先检测 ffmpeg 是否可用，不可用则切换 moviepy
错误处理：脚本执行失败时，读取错误信息并告知用户可能的原因和解决方案
输出确认：操作完成后，明确告知用户输出文件的完整路径和文件大小

使用示例

用户：帮我把 D:\workbuddy\lecture.mp4 里的音频提取出来

AI 执行：

python D:\workbuddy\skills\audio-tools\scripts\audio_tools.py extract --input "D:\workbuddy\lecture.mp4"

输出：✅ 提取完成：D:\workbuddy\lecture.wav（大小：12.3 MB）

用户：把 lecture.wav 从第 30 秒开始截取 2 分钟

AI 执行：

python D:\workbuddy\skills\audio-tools\scripts\audio_tools.py clip --input "D:\workbuddy\lecture.wav" --start 30 --duration 120

输出：✅ 截取完成：D:\workbuddy\lecture_clip.wav（时长：120 秒）

用户：播放一下 lecture.mp4

AI 执行：

python D:\workbuddy\skills\audio-tools\scripts\audio_tools.py play --input "D:\workbuddy\lecture.mp4"

输出：✅ 已调用系统默认播放器打开：D:\workbuddy\lecture.mp4

audio-tools

Install

Audio Tools Skill

工作目录

环境要求

Python 版本

依赖检查

依赖说明

缺失依赖时的提示

方式一：Bundled ffmpeg（推荐）

方式二：系统 ffmpeg

方式三：moviepy（备选）

功能说明 & SOP

功能 1：提取视频音频

功能 2：截取音频片段

功能 3：播放媒体文件

功能 4：语音识别转文字（Whisper）

功能 5：提取音频/视频元数据

AI 使用规范

使用示例

Related skills