# 内容格式规则

这份参考文件只说明三类内容本身应该如何书写：

- `summary.txt`
- `chunks/chunk-00001.md`
- `t2q/00001-q-1.md`

每次生成摘要、切片、T2Q 之前，都先读这份文件。

## 1. `summary.txt`

用途：

- 给查询结果中的 `summary` 字段提供单行摘要

硬性规则：

- 必须是纯文本
- 必须是单行
- 不能有换行
- 不能带标题
- 不能带项目符号
- 不能带 Markdown 语法
- 长度不能超过 200 字

内容要求：

- 说明文档的主要内容
- 尽量包含适用对象、流程主题、制度范围或关键用途
- 不要堆砌细节

正确示例：

```text
该文件说明测试环境权限的申请步骤、审批方式和有效期要求。
```

错误示例：

```md
# 摘要

- 该文件说明测试环境权限的申请步骤
- 还说明了有效期
```

## 2. `chunk-00001.md`

用途：

- 作为真实召回单元
- 查询结果最终返回的就是 chunk 内容

硬性规则：

- 必须是 Markdown 或纯文本
- 每个文件只包含一个 chunk
- 原则上不超过 1000 字
- 标题、表格、列表尽量保持完整
- 不要把多个不相关主题硬拼到同一个 chunk
- 不要加入解释性前缀，例如“这是第一个切片”

内容要求：

- 以语义完整为优先
- 标题优先和下面的正文放在同一个 chunk
- 如果列表或表格本身是一个完整单元，优先整体保留

正确示例：

```md
## 申请步骤

- 在内部服务台提交申请单。
- 选择目标系统与环境。
- 填写申请原因和截止时间。
```

错误示例：

```md
这是第一个切片。

## 申请步骤

- 在内部服务台提交申请单。
```

## 3. `00001-q-1.md`

用途：

- 作为 T2Q 召回代理
- 命中后会折叠回真实 chunk

硬性规则：

- 必须只写一个问题
- 必须单行
- 不能有换行
- 不要带答案
- 不要写“问题：”前缀
- 不要写 chunk 编号到正文里
- 文件名中的前半段必须对应 chunk 序号

内容要求：

- 问题要贴近用户真实检索表达
- 一个 chunk 通常生成 3 到 5 个问题
- 短 chunk 生成 3 个，长 chunk 生成 5 个
- 问题之间不要只是同义词机械改写

正确示例：

```text
如何申请测试环境权限？
```

错误示例：

```text
问题：如何申请测试环境权限？答案是提交申请单。
```

## 4. 生成顺序

顺序固定为：

1. 先有 `{safe_name}.md`
2. 再生成 `summary.txt`
3. 再生成 `chunks/*.md`
4. 最后针对每个 chunk 生成 `t2q/*.md`

不要跳步。
