Install
openclaw skills install pet-video-narration宠物第一视角视频创作技能。当用户发送宠物视频并希望生成"宠物内心独白"风格的配音视频时激活。适用场景:(1)分析宠物肢体动作并解读其意图;(2)生成宠物第一视角的趣味文案;(3)文字转语音并音视频合并为成品。触发词:宠物视频配音、我的宠物在想什么、给宠物加旁白、宠物内心独白、pet video narration。
openclaw skills install pet-video-narration将宠物视频转化为"宠物内心独白"风格配音视频的完整流程。
第1步:视频分析 → 第2步:行为解读 → 第3步:生成文案 → 第4步:音频生成 → 第5步:音视频合并
使用 videos_understand 分析视频,prompt 结构化输出:
请详细描述:
1)环境场景(室内/室外、物品、光线)
2)宠物外观(品种、毛色、体型特征)
3)所有肢体动作(姿态、四肢、面部表情、尾巴/耳朵细节)
4)情绪状态(平静/警觉/好奇/兴奋/紧张)
5)动作发生的时间节点(0-X秒)
关键:记录精确时间节点,用于后续音频卡点。
加载 references/pet-body-language.md 作为参考框架,结合视频具体动作,判断宠物意图。
常见意图模式:
结合宠物背景信息判断语气:
原则:
典型文案结构(按意图分类):
| 意图 | 文案风格 | 长度 |
|---|---|---|
| 期待落空 | 委屈+赌气,有点小脾气 | 中等 |
| 极度放松 | 得意、满足、傲娇 | 偏短 |
| 好奇探索 | 兴奋+警觉,眼神到处看 | 中等偏长 |
| 开心宣泄 | 兴奋,不说话就是跑跳 | 短或无配音 |
音频节奏建议:
声线选择(batch_text_to_audio / synthesize_speech):
| 物种/风格 | 推荐 voice_id |
|---|---|
| 兔子/仓鼠/荷兰猪 | Chinese (Mandarin)_Cute_Spirit |
| 猫咪 | Chinese (Mandarin)_Cute_Spirit 或 Chinese (Mandarin)_Soft_Girl |
| 小型犬/活泼宠物 | Chinese (Mandarin)_ExplorativeGirl |
| 大型犬/稳重型 | Chinese (Mandarin)_Warm_Girl |
| 高冷傲娇型 | Chinese (Mandarin)_Crisp_Girl |
| 英文版本 | English_PlayfulGirl |
参数建议:
静音间隔计算(卡点用):
gap_dur = max(0, next_action_time - (current_action_time + audio_duration))
用 Python 生成静音段 WAV,再转 AAC/M4A 后拼接。
FFmpeg 合并(Linux 环境):
# 音频合并
ffmpeg -y -f lavfi -i "anullsrc=r=24000:cl=mono" -t <duration> -q:a 9 silence.wav
ffmpeg -y -i <audio>.mp3 -ar 24000 -ac 1 <audio>.m4a
ffmpeg -y -f concat -safe 0 -i <concat_list.txt> -c:a aac <full_audio>.m4a
# 视频合并
ffmpeg -y -i <original_video>.mov -i <full_audio>.m4a \
-map 0:v:0 -map 1:a:0 -c:v copy -c:a aac \
-shortest <output>.mp4
音频时长验证: 确保合并后音频时长 ≥ 视频时长,-shortest 自动截断。
Linux 环境检查: ffmpeg 默认可能不存在,需先安装:
apt-get install -y ffmpeg
生成前必须向用户确认:
⚠️ 这些信息不写入文案,只用于判断意图和语气。
| 文件 | 路径 | 说明 |
|---|---|---|
| 最终成品视频 | /workspace/pet_final.mp4 | 带音频的完整视频 |
| 独立音频 | /workspace/pet_audio.m4a | 方便用户在剪辑工具中二次编辑 |
| 各段音频 | /workspace/pet_seg*.mp3 | 分段原件,供调试 |