Install
openclaw skills install ai-video-studioFableForge 通用视频生成流水线 SOP。支持两种生产模式(图片流、视频 B-roll 流)和三种体裁(叙事寓言、商业分析、产品宣发)。包含从概念生成、剧本创作、TTS 配音、素材采集、到 HyperFrames 视频渲染的完整工业化 SOP,以及视觉风格指南与技术陷阱手册。
openclaw skills install ai-video-studio本 Skill 是一份命令级可执行 SOP,而非经验教训集。每个 Stage 均包含具体执行命令和退出验收标准,严禁跳步或在退出标准未满足时进入下一阶段。
核心原则:内容的可理解性永远优先于时长限制。
视频时长不是预设的固定值,而是由内容倒推得出的。错误的做法是「先定 60 秒,然后把内容往里塞」;正确的做法是「先确认内容讲完需要多少字,再据此选档」。
本流水线支持三种核心体裁。在构思内容前,必须首先确定体裁:
| 体裁 (Genre) | 特征与核心要求 | 适用场景 | 常用视觉模式 |
|---|---|---|---|
| Genre X: 叙事/隐喻 (Narrative) | 有角色、有冲突。旁白重感受轻动作,追求悬念与结局升华。 | 寓言故事、历史重现、管理隐喻 | + 模式 A (图片) |
| Genre Y: 分析/科普 (Analytical) | 论点驱动、逻辑递进。追求清晰的结构拆解和痛点直击。 | 商业分析、职场洞察、技术科普 | + 模式 B (B-roll) |
| Genre Z: 宣发/展示 (Promotional) | 产品中心、利益点明确。强节奏感与转化引导 (CTA)。 | 产品宣发、网站转视频、功能展示 | 混合模式 |
| 档位 | 适用场景 | 旁白总字数 | 预估时长 | 分镜数 |
|---|---|---|---|---|
| S · 短片 | 单一概念解释、痛点直击、高密度短平快 | 150~450 字 | 45~120 秒 | 1+5~12+1 |
| M · 标准 | 完整叙事、多维度拆解、深度论证 | 450~900 字 | 120~270 秒 | 1+12~20+1 |
| L · 长篇 | 复杂案例剖析、连续剧集 | 900~1500 字 | 270~420 秒 | 1+20~30+1 |
超过 1500 字的内容必须拆成上下集(每集独立成片,各自包含封面和结尾)。
旁白总字数 = 原始故事中【不可删减要素】的合计字数(见 0.3)
预估时长(秒) = 旁白总字数 ÷ 3.5(中文语速)
根据预估时长选择对应档位
不同体裁有不同的不可删减要素。如果被删除,观众将无法理解视频的核心价值。剧本转化阶段(Stage 1.2)严禁删除这些要素:
| 体裁 (Genre) | 核心不可删减要素 | 删除后果 |
|---|---|---|
| Narrative (叙事类) | 因果链、角色动机、关键对话、认知翻转事件、结局因果闭环 | 观众不知道“为什么”,悬念消失,结论像硬塞的 |
| Analytical (分析类) | 痛点现象描述、核心矛盾拆解、数据对比/逻辑支撑、金句结论 | 视频变成空洞的说教,缺乏说服力 |
| Promotional(宣发类) | 目标受众痛点、核心利益点 (Benefit)、差异化价值、明确的 CTA | 看完后不知道自己能得到什么,无法转化 |
可以精简的要素:
| 规格项 | 标准值 | 说明 |
|---|---|---|
| 每幕旁白字数 | 中文 30~80 字 / 英文 20~50 词 | 中文约 3.5 字/秒,英文约 2.5 词/秒 |
| 每幕预估时长 | 5 ~ 15 秒 | 最终以音频实测为准 |
| 分镜编号格式 | scene_cover, scene1~scene{N}, scene_end | 与 assets/ 下的图片名严格一一对应 |
| 旁白与分镜对应 | 1 幕 == 1 张图 == 1 段旁白 | 封面通常对应标题旁白,结尾对应金句旁白 |
视频质量的上限由三个核心因素决定。每一重门禁未通过,不得进入下一阶段。
AI 容易生成"结构正确但洞察平庸"的内容。在向用户展示前,必须根据体裁完成自检:
强制自检(全部通过方可提交用户确认):
脚本是情绪与逻辑的乐谱。全片节奏必须有起伏,禁止平铺直叙。
体裁节奏铁律:
"十只狼排成一列" → ✅ "山谷里没有声音,只有风")。- **情绪/节奏档位**:{X},指导配音语气与画面。构图与画幅规范(强制):
1024x1792)。严禁使用横屏图片。cinematic vertical shot, 9:16 aspect ratio, subject positioned in upper third of frame, dark atmospheric space at bottom风格圣经与一致性工作流(强制): 为了保证多幕生图的视觉一致性,在生成任何图片之前,必须先根据体裁和设定定义一套「风格圣经」作为所有提示词的前缀,并为主要角色建立角色特征词组。
详细的风格圣经编写步骤、提示词工程公式以及角色一致性锚定工作流,请务必直接阅读 🎨 视觉风格参考手册。
逐张自检:
FableForge 支持两种生产模式。在用户确认内容方向后、动手写剧本之前,必须先确定生产模式。
| 维度 | 模式 A:纯图片 | 模式 B:视频 + 文字叠加 |
|---|---|---|
| 适用题材 | 寓言故事、有角色弧线的隐喻 | 职场分析、管理洞察、观点输出 |
| 画幅 | 16:9 横屏(1920×1080) | 9:16 竖屏(1080×1920) |
| 视觉素材 | AI 生成的场景图片 | Pexels/Pixabay 免费 B-roll 视频 |
| 文字呈现 | 底部字幕条 | 全屏文字叠加排版(暗化遮罩 + 大字) |
| 叙事结构 | 角色驱动的故事弧线 | 论点驱动的拆解/金句输出 |
| 产出节奏 | 较慢(等图片生成 + 风格校准) | 较慢(等图片生成 + 风格校准) |
| 判断条件 | 选择 |
|---|---|
| 有具体角色名字和对话(僧人、狼王、船夫……) | 模式 A |
| 叙事主语是「我」「你」「我们」「很多公司」 | 模式 B |
| 需要展示隐喻(灯 → 认知、桥 → 管理) | 模式 A |
| 需要展示数据对比(3 → 13)、金句输出 | 模式 B |
| 用户明确说"拍成视频" / "竖版" / "短视频" | 模式 B |
| 用户明确说"写个寓言" / "讲个故事" | 模式 A |
⚠️ 用户可在停机确认时手动覆盖 AI 的模式推荐。模式确定后写入
视频脚本.md头部的「内容定档」章节。
为确保 AI 执行各阶段时的高精准度与低上下文占用,制片厂流水线已全面重构为模块化架构。当您执行某一个特定阶段时,请直接调阅并遵循该阶段对应的子 SOP 指南:
ffmpeg / ffprobe 环境、构建 VoxCPM2 隔离 Python 环境。ffprobe 获取音频绝对时长,使用 Whisper (A方案) / RMS 能量分析 (B方案) 获得精确断句,映射生成 data-start 时间轴。#composition DOM 骨架。模式 B 下严格执行视频标签扁平化,配置组件库(.headline, .neq 等),确保静态显示 100% 正确并通运 lint 校验。inspect 实施最终质量门禁,使用 render 导出 MP4 视频。为了保持核心 SOP 的精炼度,以下核心手册与技术参考已存为独立的资源文件,Agent 在执行时可按需读取:
模式 A(纯图片叙事视频):
/YYYYMMDD/
├── index.html (核心时间轴,Stage 3/4 产物)
├── assets/
│ ├── scene_cover.png (封面图,纯文字海报)
│ ├── scene1.png ~ sceneN.png
│ ├── scene_end.png (结尾图,纯文字海报)
│ ├── narration.wav (TTS 配音)
│ ├── bgm.mp3 (背景配乐,Stage 1.7 产物)
│ └── transcript.json (Whisper 时间戳,Stage 2.2 产物)
├── 视频脚本.md (剧本,Stage 1.2 产物)
└── promo_video.mp4 (最终成品,Stage 4.3 产物,Git 豁免名单)
模式 B(视频 B-roll + 文字叠加):
/YYYYMMDD_{project_name}/
├── index.html (核心时间轴,竖屏 1080×1920)
├── style.css (独立样式表,文字叠加组件库)
├── download_and_process.py (B-roll 自动化下载/裁剪脚本)
├── assets/
│ ├── scene1.mp4 ~ sceneN.mp4 (裁剪后的 B-roll 视频,1080×1920,无音轨)
│ ├── narration.wav (TTS 配音)
│ └── bgm.mp3 (背景音乐)
├── 视频脚本.md (剧本 + B-roll 素材规划表)
└── renders/
└── {project}_YYYY-MM-DD_HH-MM-SS.mp4 (渲染成品)