Install
openclaw skills install china-video-gen国内可用的AI视频生成技能。Create videos from text — generates script, images, voiceover, and merges into MP4. No time limit, full control. 视频生成、短视频制作。
openclaw skills install china-video-gen将文字描述转化为完整视频:自动生成分镜脚本 → 图片序列 → 配音 → 合成 MP4。 无时长限制,完全可控,国内直连,无需翻墙。
每次执行前必须先检查依赖,缺失则提示用户手动安装。
检查 ffmpeg 是否已安装:
- macOS: brew install ffmpeg
- Ubuntu: sudo apt install ffmpeg
- Windows: 从 https://ffmpeg.org/download.html 下载
需要安装以下 skills:
- china-image-gen:文生图技能
- china-tts:文字转语音技能
安装方法:clawhub install china-image-gen
需要配置 SILICONFLOW_API_KEY:
1. 访问 cloud.siliconflow.cn 注册
2. 进入「API密钥」页面创建 Key
3. export SILICONFLOW_API_KEY='sk-xxxxxxxx'
从用户描述中提取关键信息:
视频主题:产品宣传 / 知识科普 / 品牌故事 / 教程演示 / 其他
目标时长:15秒 / 30秒 / 60秒 / 更长(无限制)
画面风格:写实 / 插画 / 科技感 / 温暖 / 商务
音色选择:见 china-tts 音色列表
目标平台:小红书(1:1或3:4) / 抖音(9:16) / B站/YouTube(16:9) / 通用(16:9)
语言:中文 / 英文 / 中英混合
根据用户需求,设计分镜脚本。每个分镜包含:
分镜N:
时长:X 秒
画面描述(英文 prompt,用于 FLUX 文生图)
解说词(中文,用于 TTS 配音)
运镜效果:静止 / Ken Burns 缩放 / 平移
转场效果:淡入淡出 / 擦除 / 无
总时长 30秒,建议分镜数量:5-8个
开场:2-3秒(Logo/主题/吸引眼球)
主体:每个分镜3-5秒
结尾:2-3秒(CTA/联系方式/品牌)
总时长 60秒,建议分镜数量:10-15个
节奏:前10秒最关键,必须抓住注意力
字数与时长对照(TTS朗读速度约4字/秒):
3秒 ≈ 12字
5秒 ≈ 20字
10秒 ≈ 40字
调用 china-image-gen skill,为每个分镜生成对应图片。
小红书(1:1):1024x1024
小红书(3:4):768x1024
抖音/竖版(9:16):720x1280
B站/横版(16:9):1280x720
对每个分镜执行:
调用 china-tts skill,将所有解说词合并为一个音频文件。
使用 ffmpeg 将图片序列和音频合成为 MP4 视频。
视频生成完成
━━━━━━━━━━━━━━━━━━━━
视频文件:{工作区}/output.mp4
总时长:约 XX 秒
分镜数:X 张
画面比例:16:9(1280x720)
文件结构:
video_xxx/
├── output.mp4 ← 最终视频
├── frames/ ← 各分镜图片
├── audio/
│ └── voiceover.mp3 ← 配音文件
└── concat.txt ← 合成配置
分镜数:6个
图片模型:FLUX.1-dev(高质量)
音色:alex(沉稳男声)或 claire(温柔女声)
效果:Ken Burns
转场:淡入淡出
分镜数:12个
图片模型:FLUX.1-schnell(快速)
音色:anna(沉稳女声)
效果:静止图片
转场:无
分辨率:768x1024
分镜数:6个
图片模型:Kolors(中文理解最好)
音色:diana(欢快女声)
效果:Ken Burns
分辨率:720x1280
分镜数:4个(节奏快)
图片模型:FLUX.1-schnell
音色:bella(激情女声)
效果:Ken Burns