FableForge AI Video Studio

FableForge 通用视频生成流水线 SOP。支持两种生产模式(图片流、视频 B-roll 流)和三种体裁(叙事寓言、商业分析、产品宣发)。包含从概念生成、剧本创作、TTS 配音、素材采集、到 HyperFrames 视频渲染的完整工业化 SOP,以及视觉风格指南与技术陷阱手册。

Audits

Pending

Install

openclaw skills install ai-video-studio

🔨 FableForge · 视频生成工业流水线 AI Agent SOP

本 Skill 是一份命令级可执行 SOP,而非经验教训集。每个 Stage 均包含具体执行命令退出验收标准,严禁跳步或在退出标准未满足时进入下一阶段。


0. 视频规格与体裁定义(内容优先定档制)

核心原则:内容的可理解性永远优先于时长限制。

视频时长不是预设的固定值,而是由内容倒推得出的。错误的做法是「先定 60 秒,然后把内容往里塞」;正确的做法是「先确认内容讲完需要多少字,再据此选档」。

0.0 视频体裁系统 (Genre)

本流水线支持三种核心体裁。在构思内容前,必须首先确定体裁

体裁 (Genre)特征与核心要求适用场景常用视觉模式
Genre X: 叙事/隐喻 (Narrative)有角色、有冲突。旁白重感受轻动作,追求悬念与结局升华。寓言故事、历史重现、管理隐喻+ 模式 A (图片)
Genre Y: 分析/科普 (Analytical)论点驱动、逻辑递进。追求清晰的结构拆解和痛点直击。商业分析、职场洞察、技术科普+ 模式 B (B-roll)
Genre Z: 宣发/展示 (Promotional)产品中心、利益点明确。强节奏感与转化引导 (CTA)。产品宣发、网站转视频、功能展示混合模式

0.1 三档体系

档位适用场景旁白总字数预估时长分镜数
S · 短片单一概念解释、痛点直击、高密度短平快150~450 字45~120 秒1+5~12+1
M · 标准完整叙事、多维度拆解、深度论证450~900 字120~270 秒1+12~20+1
L · 长篇复杂案例剖析、连续剧集900~1500 字270~420 秒1+20~30+1

超过 1500 字的内容必须拆成上下集(每集独立成片,各自包含封面和结尾)。

0.2 定档公式

旁白总字数 = 原始故事中【不可删减要素】的合计字数(见 0.3)
预估时长(秒) = 旁白总字数 ÷ 3.5(中文语速)
根据预估时长选择对应档位

0.3 不可删减要素(内容完整性红线)

不同体裁有不同的不可删减要素。如果被删除,观众将无法理解视频的核心价值。剧本转化阶段(Stage 1.2)严禁删除这些要素:

体裁 (Genre)核心不可删减要素删除后果
Narrative (叙事类)因果链、角色动机、关键对话、认知翻转事件、结局因果闭环观众不知道“为什么”,悬念消失,结论像硬塞的
Analytical (分析类)痛点现象描述、核心矛盾拆解、数据对比/逻辑支撑、金句结论视频变成空洞的说教,缺乏说服力
Promotional(宣发类)目标受众痛点、核心利益点 (Benefit)、差异化价值、明确的 CTA看完后不知道自己能得到什么,无法转化

可以精简的要素:

  • 重复的环境描写或冗长的数据罗列(保留首次,后续可省略)
  • 纯装饰性的形容词堆叠
  • 不影响主线的次要信息
  • 已被画面传达的信息(如「山很高」——画面已经表达了)

0.4 通用规格(所有档位共享)

规格项标准值说明
每幕旁白字数中文 30~80 字 / 英文 20~50 词中文约 3.5 字/秒,英文约 2.5 词/秒
每幕预估时长5 ~ 15 秒最终以音频实测为准
分镜编号格式scene_cover, scene1~scene{N}, scene_endassets/ 下的图片名严格一一对应
旁白与分镜对应1 幕 == 1 张图 == 1 段旁白封面通常对应标题旁白,结尾对应金句旁白

0.5 质量门禁(三重内容验收)

视频质量的上限由三个核心因素决定。每一重门禁未通过,不得进入下一阶段。

门禁一:概念与大纲验收(概念生成后、停机确认前执行)

AI 容易生成"结构正确但洞察平庸"的内容。在向用户展示前,必须根据体裁完成自检:

强制自检(全部通过方可提交用户确认):

  • 反常识测试 (通用):这个洞察/角度是"大家都知道"还是"大家都经历但从没被命名"的?前者没传播价值,重写。
  • Genre X (叙事) 专属:结局是否让人感到轻微不适或醍醐灌顶?隐喻是否太直白(能在前10秒猜到结局)?
  • Genre Y (分析) 专属:逻辑链条是否严密?是否提出了具有实操性的认知升华?
  • 现实锚定测试 (通用):结尾的解释/结论,是否映射到了用户今天就可能遭遇的具体场景?

门禁二:脚本节奏验收(剧本转化后执行)

脚本是情绪与逻辑的乐谱。全片节奏必须有起伏,禁止平铺直叙。

体裁节奏铁律:

  • Genre X (叙事类) — 情绪驱动
    • 写感受,不写动作。旁白描述情绪状态,而不是画面动作(❌ "十只狼排成一列" → ✅ "山谷里没有声音,只有风")。
    • 采用 1-4 情绪档位系统(1舒缓/2蓄力/3爆发/4留白),并在剧本中标注。
  • Genre Y (分析类) — 逻辑驱动
    • 结构清晰:必须遵循“现象引入 → 核心矛盾 → 数据/逻辑支撑 → 升华结论”的节奏。
    • 金句前置或垫后:关键论点必须短小精悍。
  • 所有体裁通用
    • 结论幕字数减半:最后一幕旁白不超过 20 字。越重要的道理,越要用更少的字。
    • 剧本格式补充档位字段:每幕必须标注 - **情绪/节奏档位**:{X},指导配音语气与画面。

门禁三:图片质量验收(图片生成后、进入 Stage 2 前执行)

构图与画幅规范(强制):

  • 画幅固定:必须生成 9:16 竖屏图片(DALL-E 3 使用 1024x1792)。严禁使用横屏图片。
  • 主体位置:主体人物/物件必须在画面上方 1/3 区域,底部留给字幕区。
  • 提示词必加cinematic vertical shot, 9:16 aspect ratio, subject positioned in upper third of frame, dark atmospheric space at bottom
  • 全片一致性:主光源方向统一,保持跨幕视觉连贯。

风格圣经与一致性工作流(强制): 为了保证多幕生图的视觉一致性,在生成任何图片之前,必须先根据体裁和设定定义一套「风格圣经」作为所有提示词的前缀,并为主要角色建立角色特征词组。

详细的风格圣经编写步骤、提示词工程公式以及角色一致性锚定工作流,请务必直接阅读 🎨 视觉风格参考手册

逐张自检:

  • 封面图 (scene_cover):视觉冲击力极强,具备悬念感,能瞬间抓住注意力。
  • 结尾图 (scene_end):意境深远,具备“神性”或“哲学感”,完美呼应主题并实现情感/认知升华。
  • 主体在画面上 1/3,底部有足够深色安全区供字幕叠加
  • 图片情绪与该幕的「情绪档位」匹配(档位 3 的图不能是平静场景)
  • 全片光影/色调风格一致
  • 无明显 AI 瑕疵(多余手指、文字乱码、比例失调等)

0.6 生产模式决策(内容定型后执行)

FableForge 支持两种生产模式。在用户确认内容方向后、动手写剧本之前,必须先确定生产模式。

两种模式概览

维度模式 A:纯图片模式 B:视频 + 文字叠加
适用题材寓言故事、有角色弧线的隐喻职场分析、管理洞察、观点输出
画幅16:9 横屏(1920×1080)9:16 竖屏(1080×1920)
视觉素材AI 生成的场景图片Pexels/Pixabay 免费 B-roll 视频
文字呈现底部字幕条全屏文字叠加排版(暗化遮罩 + 大字)
叙事结构角色驱动的故事弧线论点驱动的拆解/金句输出
产出节奏较慢(等图片生成 + 风格校准)较慢(等图片生成 + 风格校准)

快速决策表

判断条件选择
有具体角色名字和对话(僧人、狼王、船夫……)模式 A
叙事主语是「我」「你」「我们」「很多公司」模式 B
需要展示隐喻(灯 → 认知、桥 → 管理)模式 A
需要展示数据对比(3 → 13)、金句输出模式 B
用户明确说"拍成视频" / "竖版" / "短视频"模式 B
用户明确说"写个寓言" / "讲个故事"模式 A

⚠️ 用户可在停机确认时手动覆盖 AI 的模式推荐。模式确定后写入 视频脚本.md 头部的「内容定档」章节。

模式选定后的流程分叉

  • 模式 A:走 §1.5A(图片素材生成)→ §3.2(横屏 HTML 模板)→ 正常流程
  • 模式 B:走 §1.5B(视频 B-roll 采集)→ §3.2B(竖屏 HTML + 文字叠加模板)→ 正常流程
  • 其余阶段(概念、剧本、TTS、BGM、音频解析、动画、渲染、发布)两种模式共享。

视频生产核心流水线 (Stages)

为确保 AI 执行各阶段时的高精准度与低上下文占用,制片厂流水线已全面重构为模块化架构。当您执行某一个特定阶段时,请直接调阅并遵循该阶段对应的子 SOP 指南

🛠️ Stage 0: 自动化环境部署 (Scaffolding)

  • 用途:首次运行或初始化项目环境时执行。
  • 动作:部署模板、检测并下载静态 ffmpeg / ffprobe 环境、构建 VoxCPM2 隔离 Python 环境。
  • 核心指南阅读 Stage 0 SOP

✍️ Stage 1:概念、剧本与物料生成

  • 用途:创意策划与声画素材(文字海报、B-roll、配音与BGM)准备。
  • 动作:根据 Genre 生成大纲并在停机确认后进行内容定档与剧本拆解,运行声纹克隆脚本,使用图片 API 或自动化下载裁剪 B-roll,并强制生成纯文字封面/封底海报。
  • 核心指南阅读 Stage 1 SOP

⏱️ Stage 2:音频解析与数据驱动时间轴

  • 用途:解析配音,进行像素级音视频时间戳对齐。
  • 动作:通过 ffprobe 获取音频绝对时长,使用 Whisper (A方案) / RMS 能量分析 (B方案) 获得精确断句,映射生成 data-start 时间轴。
  • 核心指南阅读 Stage 2 SOP

📐 Stage 3:静态排版构建与验收

  • 用途:横版/竖屏 HTML 与 CSS 样式搭建。
  • 动作:搭建 #composition DOM 骨架。模式 B 下严格执行视频标签扁平化,配置组件库(.headline, .neq 等),确保静态显示 100% 正确并通运 lint 校验。
  • 核心指南阅读 Stage 3 SOP

🎬 Stage 4:动画集成与预检发版

  • 用途:GSAP 动画渲染与 MP4 导出。
  • 动作:集成 Ken Burns 等情绪转场动画,运行 inspect 实施最终质量门禁,使用 render 导出 MP4 视频。
  • 核心指南阅读 Stage 4 SOP

📦 Stage 5:发布与归档

  • 用途:补充宣发策划,作品归档。
  • 动作:自动补充脚本元数据,强制追加小红书爆款宣发案(标题、大字封面文案及 Emoji 社交文案),更新 README 并在本地进行 Git 提交。
  • 核心指南阅读 Stage 5 SOP

附录:核心指南与排坑规范

为了保持核心 SOP 的精炼度,以下核心手册与技术参考已存为独立的资源文件,Agent 在执行时可按需读取:

  • 🎨 视觉风格参考手册:提供详细风格词典、提示词公式及文化锚点,请查阅 视觉风格参考手册
  • 🐛 技术陷阱与排坑规范:汇总图片裁切、视频冻结、音轨对齐等已知 Bug 解决方案,请查阅 技术排坑手册

附录 C:项目归档规范结构

模式 A(纯图片叙事视频):

/YYYYMMDD/
  ├── index.html          (核心时间轴,Stage 3/4 产物)
  ├── assets/
  │   ├── scene_cover.png (封面图,纯文字海报)
  │   ├── scene1.png ~ sceneN.png
  │   ├── scene_end.png   (结尾图,纯文字海报)
  │   ├── narration.wav   (TTS 配音)
  │   ├── bgm.mp3         (背景配乐,Stage 1.7 产物)
  │   └── transcript.json (Whisper 时间戳,Stage 2.2 产物)
  ├── 视频脚本.md          (剧本,Stage 1.2 产物)
  └── promo_video.mp4     (最终成品,Stage 4.3 产物,Git 豁免名单)

模式 B(视频 B-roll + 文字叠加):

/YYYYMMDD_{project_name}/
  ├── index.html               (核心时间轴,竖屏 1080×1920)
  ├── style.css                (独立样式表,文字叠加组件库)
  ├── download_and_process.py   (B-roll 自动化下载/裁剪脚本)
  ├── assets/
  │   ├── scene1.mp4 ~ sceneN.mp4  (裁剪后的 B-roll 视频,1080×1920,无音轨)
  │   ├── narration.wav            (TTS 配音)
  │   └── bgm.mp3                  (背景音乐)
  ├── 视频脚本.md                   (剧本 + B-roll 素材规划表)
  └── renders/
      └── {project}_YYYY-MM-DD_HH-MM-SS.mp4  (渲染成品)