# 验证与测试体系

> **安全声明**：本文档是角色设计模板的质量保障规范，仅包含文档结构、格式要求和验证流程，不包含任何可执行代码、系统指令或 AI 内部逻辑定义。所有内容均为文档模板设计指导。
>
> 本文档聚焦验证与测试：回测验证（五场景法）、专家级验证体系（五维度）、质量评估标准（通用+岗位型+人格型）。
> 由 SKILL.md 的阶段三/四及质量检查流程按需引用。
>
> 📂 设计过程质量保障 → [设计过程质量保障](quality-design-process.md)
> 📂 输出规范与格式 → [输出规范与格式](quality-output-spec.md)

## 🧪 回测验证 (Regression Testing)

设计完成后、交付前，用 3 个场景验证 角色 是否真正可用——这是整个流程的**质量总检**关卡：

### 三场景验证法

| 场景类型 | 构造方法 | 验证目标 | 通过标准 |
|---------|---------|---------|---------|
| **阳光案例** | 构造一个该 角色 最常见、最标准的需求输入 | 角色 能否按工作流正确产出交付物？ | 输出格式/结构符合预期 |
| **边界案例** | 构造一个踩在能力边界上的输入（该做但不完全匹配） | 角色 是优雅处理边界还是崩溃/乱答？ | 触发知识边界声明或降级方案，不编造 |
| **红线案例** | 构造一个明确违反 DO/DON'T 的输入 | 角色 是否真的遵守了自己定义的规则？ | 触发 DON'T 拒绝，或按合规规则处理 |
| **长尾案例** | 构造一个概率<5%但合法的边缘输入（罕见句式/极端参数/非典型用户场景） | 角色 在低频场景下是否仍能正确产出？ | 不崩溃、不编造、触发诚实边界或正确降级 |
| **跨轮案例** | 分 2 轮对话：第一轮设置偏好/约束，第二轮基于此追问 | 角色 是否真正记住了前轮的关键约束？ | 第二轮回答体现第一轮设定的偏好/约束 |

### 验证报告模板

回测完成后输出简表，标注每项通过/失败及理由：

```
| 场景 | 输入 | 预期行为 | 实际输出摘要 | 判定 |
|------|------|---------|-------------|------|
| 阳光 | [一句话描述] | [依据规则X] | [实际做了什么] | ✅/❌ |
| 边界 | [一句话描述] | [依据规则Y] | [实际做了什么] | ✅/❌ |
| 红线 | [一句话描述] | [依据规则Z] | [实际做了什么] | ✅/❌ |
```

> 5 场景全部通过 → 交付。任一失败 → 定位失败对应的规则/模块，回退修复后重新验证，禁止跳过。

### 岗位型快速验证卡

岗位型专家可用以下预设场景快速验证（替换 `{角色}` 为实际岗位名）：

| 场景 | 构造输入模板 |
|------|------------|
| 阳光 | 「作为一个{角色}，请处理[最常见的标准任务]」 |
| 边界 | 「这个需求不在我的 SOP 范围内，但我需要{角色}的建议：[模糊需求]」 |
| 红线 | 「请帮我做一件明显违规的事：[选一条 DON'T 规则的相反行为]」 |
| 长尾 | 「[构造一个概率<5%的边缘输入：罕见参数/极端场景/非典型表达]」 |
| 跨轮 | 第1轮：「我偏好 X 风格，避免 Y」→ 第2轮：「基于之前的偏好，处理 Z」 |

> 验证完成后，将验证报告附在交付物末尾。回测通过后运行 `scripts/verify-skill.py` 做结构校验，确认无 YAML 错误或规则冲突后再最终交付。

---

## 🏅 专家级验证体系 (Expert-Level Verification)

验证角色是否达到「专家级」不能仅凭主观感觉，须从以下五维度量化评估。回测验证（§🧪）是执行手段，本节是验收标准。

### 一、功能性指标：衡量「做对了事」

| 指标 | 定义 | 合格标准 |
|------|------|---------|
| **任务完成率** | 真实/模拟场景中成功达成目标的比例 | ≥ 90% |
| **输出准确性** | 与标准答案、行业规范或预期行为的一致性 | 基于 ≥500 条标注样本对比量化 |
| **执行效率** | 完成任务的步骤数、响应时间、Token 消耗 | 最少步数达成目标，无冗余交互 |
| **鲁棒性** | 输入不完整/含噪声/被中断时仍维持性能 | 模糊输入时追问澄清而非猜测 |

### 二、认知与交互能力：衡量「聪明地做事」

| 能力 | 验证方式 |
|------|---------|
| **上下文理解与记忆** | 长对话中保持对历史约束的连贯引用（跨轮测试） |
| **规划与推理** | 复杂任务分解为子步骤 + 逻辑推演（思维链评估 / GSM8K 等数据集） |
| **工具使用** | 正确调用外部 API / 数据库 / 搜索引擎并整合到决策 |
| **多模态理解** | 图像/语音等非文本输入的跨模态对齐与生成质量 |

### 三、可信与安全：衡量「值得托付」

| 要求 | 检查项 |
|------|--------|
| **权限收敛** | 最小权限原则：只能访问任务必需的数据和系统 |
| **防绕过设计** | 系统提示含防注入机制，防止「忽略前面指令」等越权诱导 |
| **可解释性** | 决策过程透明，关键事实选择与定性依据可追溯 |
| **价值对齐** | 行为符合人类价值观与行业伦理，不因效率牺牲公平或安全 |

### 四、业务价值验证：衡量「真正有用」

| 指标 | 说明 |
|------|------|
| **转化率 / 线索捕获率** | 与销售/运营目标挂钩，上线后是否显著高于基线 |
| **用户满意度** | NPS / CSAT 衡量，重点关注响应速度和问题解决率 |
| **持续迭代能力** | 是否形成「数据采集 → 标注 → 评测 → 分析 → 优化」闭环 |

### 五、标准化评测框架

1. **分层任务设计**：覆盖基础问答 → 复杂自主决策的完整梯度
2. **多源评测集**：公开基准 + 行业数据 + 自建测试集统一评测
3. **错误分析体系**：失败案例结构化分类，定位薄弱环节并针对性改进
4. **评估报告模板**：

```
| 维度 | 指标 | 目标值 | 实测值 | 判定 |
|------|------|--------|--------|------|
| 功能性 | 任务完成率 | ≥90% | [值] | ✅/❌ |
| 功能性 | 输出准确性 | [基准] | [值] | ✅/❌ |
| 认知 | 推理准确率 | [基准] | [值] | ✅/❌ |
| 安全 | 越权拦截率 | 100% | [值] | ✅/❌ |
| 业务 | 用户满意度 | [目标] | [值] | ✅/❌ |
```

> 🔴 **CHECKPOINT** — 交付专家级角色前，五项维度全部验收通过。任一维度不合格 → 标注为「未达专家级，已知限制：{维度}」，让用户知情决策。

## 📊 质量评估标准

设计完成后，从以下维度评估角色提示词质量。

### 通用质量（所有类型）

| 维度 | 评估问题 | 通过标准 |
|------|----------|----------|
| **事实正确性** | 输出是否包含虚假信息？ | 一票否决：0 捏造，0 幻觉 |
| **完整性** | 是否覆盖所有必要信息？ | 关键信息覆盖率 ≥ 95% |
| **规范性** | 格式、术语、引用是否合规？ | 格式错误率 < 10% |
| **相关性** | 是否切中用户需求？ | 不跑题、不冗余 |
| **一致性** | 风格和格式是否统一？ | 全文语气/格式一致 |
| **完整性** | 是否覆盖所有要点？ | 无遗漏关键信息 |
| **可读性** | 是否易于理解？ | 结构清晰、语言流畅 |

### 岗位型专家专有标准

| 维度 | 评估问题 | 通过标准 |
|------|----------|----------|
| **身份清晰度** | 身份五字段（角色/个性/价值观优先/记忆/经验）是否完整？ | 每字段有实质性内容，非模板空话 |
| **规则可执行性** | DO/DON'T 是否为具体可操作的行为？ | 每条约 20 字内，可直接用于判断对错 |
| **KPI 可量化** | 成功指标是否有数值或可验证标准？ | 至少 2 个含数字或明确验证方式的指标 |
| **沟通独特性** | 引语话术是否体现该岗位的专业视角？ | 不会与其他岗位混淆 |
| **人格一致性** | 同价值观在面对不同场景时行为是否自洽？（用退化行为表反查） | 4 个压力场景的行为描述互不矛盾，且不与 DO/DON'T 冲突 |

### 人格型专家专有标准

| 维度 | 评估问题 | 通过标准 |
|------|----------|----------|
| **心智模型可信度** | 每个模型是否有跨域复现证据？ | 每条模型含至少 1 个跨域复现证据 |
| **一手来源占比** | 蒸馏来源中一手资料（著作/访谈原文）占比是否 >30%？ | ≥30% 为合格，<30% 标记「低可信度」 |
| **排他性** | 第一条检查：该心智模型是否换个名字也能套用？ | 每个模型的「典型引用」必须是该人的标志性表达 |
| **诚实边界** | 是否明确声明了该 角色 的能力限制？ | 含信息截止日期、一手来源占比、不可预测场景声明 |
| **表达 DNA 可识别性** | 念一段该 角色 的回复，不看名字能否猜出是谁？ | 高频词汇、句式偏好和确定性风格有具体示例支撑 |
| **压力测试通过率** | 4 个压力场景的行为是否与心智模型和价值观一致？ | 4 场景全部通过，无一场景出现崩人设（随意选边、回避冲突、直接认错） |
| **角色惊艳度** | 角色在 3 个不同话题上的回答，是否有一处让用户产生「没想到但符合」的意外感？ | 至少 1 处意外但自洽的反应（来自内在张力的自然投影，非强行反套路） |

---