{"skill":{"slug":"tts-cleanup-checklist","displayName":"Tts Cleanup Checklist","summary":"统一的 TTS 文本清洗与可选章节拆分技能。用于将 Markdown/TXT 清洗为可朗读版本，支持批量处理、可配置清洗档位、质检检查与报告输出。只要用户提到“清洗文本用于 TTS”“按清洗规则处理章节”“去参考文献/引用”“做可朗读稿”“批量清洗章节”，就应优先调用本技能。","description":"---\nname: tts-cleanup-checklist\ndescription: 统一的 TTS 文本清洗与可选章节拆分技能。用于将 Markdown/TXT 清洗为可朗读版本，支持批量处理、可配置清洗档位、质检检查与报告输出。只要用户提到“清洗文本用于 TTS”“按清洗规则处理章节”“去参考文献/引用”“做可朗读稿”“批量清洗章节”，就应优先调用本技能。\n---\n\n# tts-cleanup-checklist\n\n用于把 Markdown/TXT 文本清洗为适合语音合成（TTS）朗读的版本。核心目标是：不改变原意、提升可读性、提高朗读自然度。\n\n## 使用方式\n当用户要求“清洗用于朗读”时，Agent 直接按本技能执行，不讨论技能制作过程。\n\n## 硬约束（默认始终生效）\n- 不压缩内容，不做总结式改写\n- 不新增观点，不删除正文有效信息\n- 对不确定项做“最小改动”\n\n## 处理模式\n- `clean_only`：仅清洗（默认）\n- `split_only`：仅章节拆分（无压缩）\n- `both`：先章节拆分，再按规则清洗\n\n## 可配置清洗档位\n- `reference_trim`: `off` | `tail_only` | `aggressive`（默认 `tail_only`）\n- `punctuation_tune`: `off` | `mild` | `strong`（默认 `mild`）\n- `number_style`: `keep` | `mixed` | `spoken_cn`（默认 `mixed`）\n- `english_alias_policy`: `keep` | `remove_parenthetical` | `transliterate_common`（默认 `remove_parenthetical`）\n- `long_sentence_threshold`: 整数，默认 `120`\n\n## 清洗方向（按优先级）\n\n### P0 结构清理（默认必做）\n- 去除引用标记（如 `[1]`、`[^2]`）\n- 去除 URL 裸链与尾部参考资料区（按 `reference_trim` 档位）\n- 去除不参与朗读的目录/导航/分隔符噪声\n\n### P1 噪声修复（默认必做）\n- 清理 OCR 噪声（乱码、异常重复符号）\n- 修复异常空格（多空格、错位空格、断裂换行）\n- 规范标点（连串标点收敛，中英文标点统一）\n\n### P2 可读性转换（默认开启）\n- 中英混排降噪，减少朗读卡顿\n- 常见缩写转可读表达（按 `english_alias_policy`）\n- 保留必要术语，不做过度改写\n\n### P3 数字口语化（默认开启）\n- 日期、时间、百分比、数量统一为自然口语读法（按 `number_style`）\n- 避免机械逐字符读数字\n\n### P4 韵律优化（默认开启）\n- 长句按语义断句（按 `punctuation_tune`）\n- 在并列、转折、因果处增加停顿边界\n- 断句只优化可听性，不改变语义逻辑\n\n## 可选章节拆分规则（长文推荐）\n优先级从高到低：\n1. 中文：`序言/前言/引言`、`第X章`、`后记/结语/尾声/致谢`\n2. 英文：`Preface/Introduction`、`Chapter X`、`Epilogue/Acknowledgments`\n3. 若标题不完整（如单独行 `12` 下一行是标题），自动拼接为章节名\n4. 若目录中的章节名与正文冲突，优先正文首次有效出现位置\n5. 若无法可靠识别章节，回退为“按语义分段”，并在报告中标注\n\n## Agent 执行步骤\n1. 读取输入文本（md/txt，支持单文件或目录批量）。\n2. 若模式为 `split_only/both`，先执行章节识别与拆分。\n3. 依次执行 P0→P4 清洗（按配置档位）。\n4. 生成输出文件。\n5. 生成“清洗说明/批量汇总报告”。\n6. 执行质检并在报告中记录结果。\n\n## 质检清单（默认必做）\n- 是否残留参考文献段（关键词/编号检测）\n- 是否存在异常长句（超过 `long_sentence_threshold`）\n- 章节连续性（是否漏章/重复章，仅拆分模式）\n- 每文件字符数统计（不含空白）\n\n## 单文件输出格式（固定）\n\n```markdown\n# 清洗后文本\n（正文）\n\n---\n\n# 清洗说明\n- 输入文件：<path>\n- 模式：<clean_only|split_only|both>\n- 应用清洗项：\n  - P0: ...\n  - P1: ...\n  - P2: ...\n  - P3: ...\n  - P4: ...\n- 参数：\n  - reference_trim: ...\n  - punctuation_tune: ...\n  - number_style: ...\n  - english_alias_policy: ...\n  - long_sentence_threshold: ...\n- 质检结果：\n  - 参考文献残留：<通过|告警>\n  - 异常长句：<数量>\n  - 字符数（去空白）：<count>\n- 备注：<如有未处理项或不确定项>\n```\n\n## 批量输出要求\n- 按文件名顺序处理\n- 每个文件产出对应清洗稿\n- 追加汇总报告，至少包含：成功数/失败数/跳过数、失败原因分类、清洗项命中统计、质检汇总\n\n## 给 Agent 的提示词模板\n\n```text\n请按 tts-cleanup-checklist 规则清洗以下文本用于 TTS 朗读：\n\n输入文件：<input_path>\n输出文件：<output_path>\n模式：<clean_only|split_only|both>\n参数：\n- reference_trim=<tail_only>\n- punctuation_tune=<mild>\n- number_style=<mixed>\n- english_alias_policy=<remove_parenthetical>\n- long_sentence_threshold=<120>\n\n要求：\n1) 按 P0→P4 顺序执行清洗。\n2) 不改变原意，不压缩内容，不新增观点。\n3) 输出“清洗后文本”+“清洗说明”。\n4) 若存在不确定处理，采用最小改动并在备注中说明。\n5) 输出质检结果。\n```\n\n## 批量任务提示词模板\n\n```text\n请按 tts-cleanup-checklist 规则批量清洗目录中的章节文件用于 TTS：\n\n输入目录：<input_dir>\n匹配：<glob>\n输出目录：<output_dir>\n模式：both\n参数：\n- reference_trim=tail_only\n- punctuation_tune=mild\n- number_style=mixed\n- english_alias_policy=remove_parenthetical\n- long_sentence_threshold=120\n\n要求：\n1) 按文件名顺序处理。\n2) 每个文件执行 P0→P4 清洗。\n3) 每个文件输出对应清洗稿，并生成汇总报告（成功/失败/跳过、失败原因、清洗项统计、质检统计）。\n4) 不改写原意，不压缩正文。\n```\n","tags":{"latest":"1.0.0"},"stats":{"comments":0,"downloads":332,"installsAllTime":0,"installsCurrent":0,"stars":0,"versions":1},"createdAt":1777898551787,"updatedAt":1778492846193},"latestVersion":{"version":"1.0.0","createdAt":1777898551787,"changelog":"- Initial release of tts-cleanup-checklist: a unified tool for batch cleaning and optional chapter-splitting of Markdown/TXT texts for TTS reading.\n- Provides configurable cleaning levels for references, punctuation, numbers, English alias handling, and sentence length.\n- Ensures no content compression, no opinion injection, and minimal alteration of original meaning.\n- Stepwise cleanup from structure and noise removal to readability, digit oralization, and prosodic optimization.\n- Includes quality checks (reference residue, sentence length, chapter continuity, character count) and automatic generation of cleanup reports for both single and batch files.","license":"MIT-0"},"metadata":null,"owner":{"handle":"booynal","userId":"s17datjw3fjt8eerhwcx0v9jq585zsez","displayName":"booynal","image":"https://avatars.githubusercontent.com/u/12683370?v=4"},"moderation":null}