audio-enhancement-engine

Other

当用户想要**音频增强**、**提升音质**、**修复录音**、**降噪**、**语音修复**、**高保真音频**、**48kHz超分辨率**、**清理会议录音**、**音乐音质提升**、**批量处理音频**时自动触发。集成 **VoiceFixer**（通用语音修复）与 **AudioSR**（高保真音频超级分辨率到48kHz）两种专业技术，支持单个音频文件或整个目录批量处理。默认使用 VoiceFixer 进行降噪和清晰度提升；当用户提到“高保真”“音乐增强”“提升采样率”“48kHz”等需求时，自动切换到 AudioSR 模式。支持 wav、mp3、flac、m4a、ogg 等常见格式，完全本地运行，输出统一为高质量 WAV 文件。【重要约束】仅处理音频文件或音频文件夹，其他文件（如视频、图片、文档、纯文本）一律不触发此技能。常见触发口语（越多越好）： - “帮我增强这个音频” - “修复这个录音的音质” - “给这个语音降噪” - “把这个音频提升到高保真” - “音乐音质增强这个.mp3” - “批量处理音频文件夹” - “清理会议录音” - “提升音频采样率到48kHz” - “语音修复这个 wav 文件” - “高保真增强音频” - “老旧录音修复” - “音频增强目录路径”

Install

openclaw skills install audio-enhancement-engine

Audio Enhancement Skill

功能：本地音频增强与修复统一工具，集成 VoiceFixer（语音降噪/修复）和 AudioSR（高保真超级分辨率）。支持单文件与目录批量处理，自动适配最合适的增强模式，输出清晰、高质量的 48kHz WAV 文件。

触发时机（Triggers）

用户提供音频文件（.wav、.mp3、.flac、.m4a、.ogg 等）或音频文件夹路径，并表达增强音质、修复、降噪、高保真等意图。
用户说“音频增强”“修复录音”“降噪”“提升音质”“高保真”“48kHz”等关键词。
支持单个文件处理或整个文件夹批量处理（支持递归子目录）。

支持的两种增强模式

VoiceFixer 通用语音修复（默认模式）
- 擅长语音降噪、提升清晰度、修复轻微失真。
- 推荐用于：会议录音、访谈、播客、语音笔记、老旧录音。
AudioSR 高保真音频超级分辨率（启用 --hifi 时）
- 将音频提升至 48kHz，显著增加高频细节和整体保真度。
- 推荐用于：音乐、演唱、人声、需要高音质的场景。

参数提取指南

当决定调用此技能时，请从用户消息中准确提取以下参数：

<输入路径> (必填): 用户提供的音频文件路径或文件夹路径（支持相对/绝对路径）。
<输出路径> (选填): 用户指定的输出文件或目录路径。若未指定，默认在输入同级目录自动添加 _enhanced 后缀。
<模式选择> (选填):
- 默认使用 VoiceFixer。
- 若用户提到“高保真”“音乐”“48kHz”“超分辨率”等，自动添加 --hifi 并使用 AudioSR。
VoiceFixer 专用参数（默认模式）:
- --mode：0/1/2（推荐 1，默认 1）
- --cuda：是否使用 GPU
- -r, --recursive：是否递归子目录
AudioSR 专用参数（--hifi 模式）:
- --model_name：basic 或 speech（人声推荐 speech）
- --ddim_steps：扩散步数（默认 50，建议 50-100）
- --guidance_scale：引导尺度（默认 3.5）
- --seed：随机种子（默认 42）
- --device：cuda 或 cpu

执行步骤

解析路径：识别用户提供的音频文件或文件夹路径。
模式判断：根据用户意图判断使用 VoiceFixer（默认）还是 AudioSR（含 --hifi）。
默认目标：若未指定输出路径，默认在输入目录生成带 _enhanced_48k（AudioSR）或 _enhanced（VoiceFixer）后缀的文件。

调用命令：使用以下兼容性命令启动脚本（优先 python3，失败则 python）。脚本会自动检查环境、初始化模型并处理。

(python3 scripts/enhancer.py -i "<输入路径>" [-o "<输出目录>"] [-m <0|1|2>] [--cuda] [-r] [--hifi] [--model_name <basic|speech>] [--ddim_steps <数值>] [--guidance_scale <数值>] [--seed <数值>] [--device <cuda|cpu>]) || (python scripts/enhancer.py -i "<输入路径>" [-o "<输出目录>"] [-m <0|1|2>] [--cuda] [-r] [--hifi] [--model_name <basic|speech>] [--ddim_steps <数值>] [--guidance_scale <数值>] [--seed <数值>] [--device <cuda|cpu>])