Article2Book

Other

基于现有文章、专栏、课程讲稿、逐字稿、访谈、课件、会议纪要、案例材料、PDF 文本、Word 文档和笔记等内容资产,判断它们最适合转化为书、小册子、课程、系列文章、实务手册或知识库,并输出精简策划意见;用户提到“把现有内容整理成书”“判断素材适合做书还是课程”“把文章/直播稿/课程稿/笔记重组成知识产品”等场景时,应使用本技能。

Install

openclaw skills install article2book

现有内容资产再组织技能

最后更新:2026-05-17

定位

article2book 用于把一个目录下已经存在的内容资产,整理成可出版、可交付或可持续维护的结构化成果。

本技能仍以“成书策划”为默认主路径,但不把所有素材强行导向一本书。它会先判断这批素材最适合成为:

  • 书稿
  • 小册子
  • 课程
  • 系列文章
  • 实务手册
  • 知识库
  • 暂不建议产品化的素材池

这里的“现有内容资产”包括但不限于:

  • 已发布文章、专栏稿、公众号稿件
  • 课程讲稿、分享提纲、直播稿、演讲稿
  • 视频教程配套文稿、字幕稿、逐字稿
  • 访谈稿、问答记录、会议纪要
  • 课件、案例材料、实务清单
  • PDF 文本、Word 文档、Obsidian 笔记
  • 卡片、方法论草稿、系列随笔

它的出发点不是“从空白开始写一本书”,而是:

  • 先盘点已有内容资产
  • 再判断最合适的交付形态
  • 然后筛掉低价值内容,收束母题、读者和结构
  • 最后把已有素材重组为更适合出版或交付的内容产品

本技能的默认方法论是:

  • Agent 通读优先
  • 脚本索引辅助
  • 先判断内容形态,再判断是否成书
  • 先筛掉低价值内容,再做结构设计
  • 默认单文件交付
  • 确认后进入对应产物初稿

典型输入

  • 一个目录下混合放置的 Markdown 文章、专栏稿、公众号稿、课程讲稿、字幕稿、逐字稿、Obsidian 笔记
  • 一批直播稿、访谈稿、课程稿或会议纪要,用户不确定适合做书、课程还是知识库
  • 已写成很多长文,但主题散、重复多、表达角度不统一
  • 同一作者围绕某条方法论持续写作和输出,但还没有沉淀成稳定内容产品
  • 一个混合目录里同时有文章、课件、案例、手册草稿和零散笔记

示例

  • 请读取 <素材目录>,判断这些文章能不能整理成一本书,并给出书稿结构方案。
  • 我有一批直播逐字稿和配套文章,帮我判断适合做书、课程还是小册子。
  • 这个混合目录能不能整理成一个知识产品?如果不适合成书,也请给出替代方案。
  • 你先只输出一份策划意见,我确认后你再直接生成对应初稿。

不适用场景

  • 用户只是想汇总文件目录,不关心内容形态、读者定位或重组路径
  • 用户已经有成熟目录,只需要续写某一章
  • 用户希望完全从零构思一本书,而不是基于已有素材整理
  • 文件夹里主要是图片、扫描件、录音、纯视频等材料,且尚未转为可读文本
  • 用户要做的是排版、封面、营销文案或发行流程,而不是内容资产重组

默认输出目录

默认在源目录下创建 书稿策划输出/ 目录。即使最终建议不是成书,也继续使用该目录,避免为不同形态制造多套路径规则。

工作模式

根据用户请求和素材复杂度选择工作模式:

模式适用场景默认产物
快速盘点用户只想先知道方向,或素材规模很大需要先判断值不值得深入对话内给出简短判断,必要时生成 书稿策划意见.md 的简版
标准策划默认模式;用户要求判断能否成书、适合什么形态、怎么重组书稿策划意见.md
深度重构用户确认策划意见后,或明确要求直接生成完整初稿全书初稿.md 或对应形态初稿

默认使用标准策划。只有在用户确认方向、明确要求生成初稿,或素材复杂到必须拆批处理时,才进入深度重构。

交付形态判断树

先判断最佳内容形态,再判断是否进入成书路径:

  1. 成书:素材有稳定母题、明确读者、足够厚度和可持续扩写空间。
  2. 小册子:主题集中但厚度不足,更适合短平快交付。
  3. 课程:素材以讲授顺序、操作演示、练习任务或学习路径为主。
  4. 系列文章:观点有价值但主题尚未形成完整体系。
  5. 实务手册:素材以流程、清单、标准、案例和操作口径为主。
  6. 知识库:素材多主题并存,适合持续维护和检索,而不适合线性阅读。
  7. 暂不建议产品化:素材过散、重复、过时或缺少足够原创判断。

各形态的判断标准见 references/content-productization-models.md

默认交付

本技能默认采用两阶段交付,并尽量减少用户需要阅读的文件数量。

第一阶段:先出一份策划意见

默认只输出:

文件用途
书稿策划意见.md唯一默认交付件。集中给出最佳内容形态、是否适合成书、主命题、目标读者、结构草案、删改动作、转化路径和下一步产物

只有在以下情况,才额外输出支撑文件:

  • 素材规模很大,需要保留通读证据
  • 用户明确要求看细表
  • 主题分叉明显,需要展示筛选依据
  • 输入格式复杂,需要记录预处理状态

可选支撑文件包括:

文件用途
processed/agent_reading_notes.mdAgent 分批通读后的内部阅读笔记
processed/article_inventory.csv脚本建立的基础清单索引
processed/article_inventory.jsonl结构化索引
附录-排除与降权清单.md仅在需要解释筛选依据时输出

第二阶段:确认后生成对应形态初稿

如果用户确认第一阶段意见无误,则直接进入内容重构,不再先产出大批中间文件。

默认输出取决于第一阶段判断:

推荐形态默认初稿
成书全书初稿.md
小册子小册子初稿.md
课程课程大纲与讲稿初稿.md
系列文章系列文章规划与首批初稿.md
实务手册实务手册初稿.md
知识库知识库结构与核心条目.md

仅当内容过长、需要分章并行起草或用户明确要求拆分时,才输出:

文件用途
chapters/01-*.md ...分章或分单元初稿
全书结构说明.md / 内容结构说明.md记录章节边界、统一术语和合并规则

完整模板见 references/output-template.md

工作流程

Step 1:确认源目录、文件类型、工作模式与输出位置

  • 确认用户给的是单一主题目录,还是多个主题混放目录
  • 默认优先处理已文本化的素材,如 .md.markdown.mdx.txt.srt.vtt
  • .docx.pdf,先作为“需预处理素材”纳入清单;能直接提取文本时再进入通读
  • 对课程视频、录音、播客等非文本素材,先转写为逐字稿再纳入判断
  • 对图片、附件、配图目录先排除,避免把配图误识别成正文内容
  • 明确采用快速盘点、标准策划还是深度重构
  • 明确输出落在源目录 书稿策划输出/

不同来源的处理方式见 references/source-type-handling.md

Step 2:先让 Agent 通读全部候选文本素材

这是本技能的主流程,不可跳过。

  • 对能直接读取的文本素材,Agent 应尽量全部通读,而不是只看标题、预览或脚本统计结果
  • 如果目录较大,可按批次通读,例如每批 10-20 份素材;每读完一批,立刻记录笔记
  • 每份素材至少记录:
    • 一句话摘要
    • 它主要在回答什么问题
    • 它更适合作为主章节、案例、附录、课程单元、手册条目还是应移出
    • 是否存在强时效性、重复表达、深度不足、口语化过强或格式预处理问题

通读记录建议沉淀到:

  • processed/agent_reading_notes.md

但该文件默认视为内部工作底稿,不应自动作为用户第一阅读入口。

更细的通读方式见 references/agent-reading-protocol.md

Step 3:通读后先做“保留 / 降权 / 排除”筛选

在开始主题聚类之前,先把低价值内容筛掉,不要把所有素材都硬塞进最终产物。

优先排除或降权以下内容:

  • 老而浅:时间较早,且只停留在信息罗列、工具介绍、表层观点,没有形成今天仍有价值的判断框架
  • 过时失效:高度依赖某次产品更新、某个版本功能、某个热点事件,且难以改写为常青表达
  • 重复但更弱:与另一份素材表达的是同一判断,但论证、案例、结构和表达都明显更弱
  • 只有热闹没有母题:看起来吸睛,但与主线关联很弱
  • 内容密度过低:篇幅不短,但信息增量很少,难以支撑章节、单元或条目

筛选时要注意:

  • 老内容不等于低质量
  • 短内容不等于低质量
  • 排除要说明理由

筛选标准见 references/content-screening-rubric.md

Step 4:在筛选基础上建立素材清单,脚本只做辅助

如需补路径、查漏或生成基础索引,可运行:

python3 scripts/build_article_inventory.py "<源目录>" --output-dir "<输出目录>/processed"

但要注意:

  • 该脚本只用于补路径、查漏、做基础索引和标记需预处理素材
  • 不得仅凭脚本输出就直接做主题判断
  • .docx.pdf 在脚本中只标记为需预处理,不直接解析正文
  • 如果 Agent 通读记录与脚本字段冲突,以通读理解为准,再人工校正

Step 5:抽取主题和内容形态,而不是只看标题

读取清单后,至少要覆盖:

  • 高密度代表素材
  • 看似相近但论点不同的素材
  • 可能属于边缘主题的素材
  • 标题像工具测评、但正文承载方法论的素材
  • 口语化很强、但内里已经有章节、课程单元或手册条目雏形的逐字稿
  • 看似零散但可沉淀为知识库条目的笔记或会议纪要

不要只根据标题聚类。正文中反复出现的“问题意识、判断口径、方法论词汇、操作步骤、案例结构、叙事张力”,通常比标题更能决定最终形态。

Step 6:识别“母题”与“最合适的内容产品”

先把素材按主题簇归类,再判断它们能否收束成稳定内容产品。

重点识别:

  • 作者反复回答的是哪一个核心问题
  • 作者与同类写作相比真正有区分度的视角是什么
  • 素材更适合线性阅读、系统学习、快速查阅,还是持续维护
  • 这些内容更像“同一本书的不同章节”,还是“多个内容产品的种子”

如果目录里同时存在两条以上都足够强的主线,不要硬拼成一本书。应明确提出:

  • 方案 A:聚焦为一本书
  • 方案 B:拆成两本书 / 一本书 + 一套课程 / 手册 + 知识库
  • 方案 C:暂不成书,先做系列文章或素材库收束

Step 7:评估成书可行性,并给出替代形态建议

references/book-viability-rubric.md 逐项判断:

  • 主题集中度
  • 核心命题清晰度
  • 目标读者清晰度
  • 内容厚度与互补性
  • 观点区分度
  • 时效风险
  • 可持续扩写空间

输出时必须同时明确:

  1. 最佳内容形态:成书 / 小册子 / 课程 / 系列文章 / 实务手册 / 知识库 / 暂不建议产品化
  2. 成书结论:可以直接进入书稿策划 / 可以成书但需收束重写 / 暂不建议成书
  3. 替代路径:如果不成书,最适合转向什么产物,以及为什么

Step 8:收束成一份 书稿策划意见.md

默认不要把分析过程拆成很多用户可见文件。

应把以下内容集中写进一份 书稿策划意见.md

  • 最佳内容形态
  • 是否值得成书
  • 不建议走的形态
  • 推荐主命题
  • 目标读者与差异化
  • 推荐结构草案
  • 哪些内容保留、哪些压缩、哪些删除
  • 保留 / 合并 / 排除的核心原则
  • 转化路径与下一步产物
  • 如果用户确认推进,第二阶段将如何直接生成对应初稿

只有当用户明确要求,或素材规模特别大、争议特别多时,才把筛选清单、总表和阅读笔记额外显性输出。

Step 9:如用户确认,直接进入第二阶段生成初稿

如果用户对 书稿策划意见.md 表示认可,则直接推进,不必再停留在更多策划文件上。

默认做法:

  • 先按意见中的推荐结构建立章节、单元或条目骨架
  • 以现有素材为底稿做合并、删改、重写与补写
  • 默认输出与推荐形态对应的单文件初稿

当素材很多时,可以:

  • 用 subagents 按批次通读素材
  • 用 subagents 分章、分单元或分条目起草初稿
  • 但主 Agent 必须负责:
    • 统一主命题与读者对象
    • 统一术语和表达口径
    • 去除重复论证
    • 做最后的结构收束与总稿合并

Step 10:只有在必要时才回退到细分文件

以下情况才建议回退到多文件包:

  • 用户明确要求逐份核对素材去向
  • 需要向第三方展示筛选依据
  • 主题分叉严重,需要比较多个内容形态方案
  • 第二阶段已经启动,需要保留更细的编辑台账

无论输出是一份还是多份,内部都仍应完成以下判断:

  • 直接保留
  • 局部吸收
  • 合并重写
  • 拆分改写
  • 仅作案例/附录/练习/条目
  • 移出本产物

判断原则

  1. 内容形态优先于成书冲动:不是所有素材都该写成书,先判断最适合用户目标和素材状态的形态。
  2. 母题优先于素材数量:素材多不代表能成书,关键看是否围绕同一问题持续推进。
  3. 区分度优先于覆盖面:一本书或课程最重要的是独特的判断框架,不是把所有话题都讲一遍。
  4. 读者问题优先于作者时间线:结构应按读者理解顺序组织,而不是按素材产生顺序排列。
  5. 常青内容优先于时评热度:遇到强时效内容,要评估其能否改写成长期有效的案例或论证。
  6. 证据可回溯:主题判断、结构映射和删改建议都应尽量回指原文件路径。
  7. 允许得出“不适合成一本书”:如果内容天然分叉,不要强行整合。
  8. 全文阅读优先于脚本结论:最终判断必须建立在 Agent 已覆盖全部可读候选文本素材的前提上。
  9. 先减法,再结构化:通读后先剔除低价值内容,再做结构设计,避免成品被低质量旧内容拖垮。
  10. 默认减少用户阅读负担:能用一份主意见讲清楚的,不拆成 6-8 份用户文件。

输出质量要求

  • 结论必须明确,不要只做模糊描述
  • 必须同时说明“最佳内容形态”和“是否适合成书”
  • 每个重大判断尽量附对应素材或主题簇依据
  • 区分“内容已有”与“必须补写”
  • 区分“适合出版成书”与“更适合课程、专栏、手册、知识库”
  • 对缺失信息标注 未提及 / 待补充 / 需作者确认

协作工具

工具用途
Agent / 文件读取能力主流程:分批通读全部可读素材,并形成阅读笔记
Subagent / 并行 Agent素材量大时并行通读、分章/分单元起草,但最终判断与总稿统一必须回到主 Agent
python3可选辅助:运行 scripts/build_article_inventory.py 建立索引、补路径、查漏、标记需预处理素材
Markdown 输出能力第一阶段生成单文件 书稿策划意见.md,第二阶段生成对应形态初稿

参考文件

文件说明
references/agent-reading-protocol.mdAgent 通读素材、分批记笔记和形成初步判断的建议流程
references/content-screening-rubric.md通读后判断“保留 / 降权 / 排除”的筛选标准
references/content-productization-models.md书、小册子、课程、专栏、手册、知识库等内容形态的判断标准
references/source-type-handling.md不同来源素材的处理方式和预处理规则
references/output-template.md默认输出模板
references/book-viability-rubric.md成书可行性评估维度与替代形态建议
scripts/build_article_inventory.py素材目录扫描与索引脚本(可选辅助)

依赖

系统依赖

依赖安装方式
python3macOS: 系统自带或 brew install python<br>Linux: sudo apt-get install python3

Python 包

包名用途安装命令
无额外第三方依赖脚本仅使用 Python 标准库;脚本为可选辅助无需安装

注意事项

  1. 如果目录中混有大量图片、配图目录或自动生成素材,先排除再分析。
  2. 如果文章横跨两个强主题,例如“法律 AI 方法论”和“通用 AI 哲学随笔”,应优先考虑拆书或拆成书 + 课程 / 知识库。
  3. 如果文章标题很像资讯或测评,但正文承载了稳定的方法论,应按方法论价值而不是标题风格判断去向。
  4. 如果用户已经有明确出版方向,本技能应服务于收束和整合;如果用户还没有方向,本技能应先做形态判断而不是急于起目录。
  5. 默认不要向用户交付太多中间文件。能用一份 书稿策划意见.md 讲清楚的,就不要拆成 6-8 份结果。
  6. 第二阶段默认直接生成对应形态初稿,不再让用户先阅读大量过渡性文件。