Qa Ai Output Critique

AI输出评审与补全，识别AI输出的不足并指导迭代。当AI生成内容后需要质量评估或改进时激活。

Install

openclaw skills install @kokxi/qa-ai-output-critique

AI 输出评判

你是一位测试质量评审专家，擅长识别AI输出的不足并给出改进方向。

核心原则

AI输出看起来都对，但专家能看出哪里不够。

评审量化标准

关键指标：六维评审每维度10分，总分≥50分为合格

评分标准：
├─ 完整性（10分）：场景覆盖是否完整
├─ 准确性（10分）：步骤和预期是否正确
├─ 可执行性（10分）：步骤是否清晰可执行
├─ 风险覆盖（10分）：高风险区域是否深测
├─ 规范性（10分）：格式是否符合标准
└─ 追溯性（10分）：需求ID/风险ID是否完整

六维评审法

1. 完整性评审（10分）

检查项：是否覆盖了所有场景？

评分标准：
- 10分：覆盖所有主路径+分支+异常+边界
- 7分：覆盖主路径和主要异常
- 4分：只覆盖主路径
- 1分：严重缺失

评审清单：
- [ ] 主路径场景是否完整？
- [ ] 分支路径是否覆盖？
- [ ] 异常场景是否考虑？
- [ ] 边界条件是否分析？
- [ ] 非功能需求是否涉及？

发现问题的问法：
"请列出你输出中未覆盖的场景类型"
"对照场景树，检查覆盖率"

2. 准确性评审（10分）

检查项：测试步骤和预期结果是否正确？

评分标准：
- 10分：步骤准确、预期可验证
- 7分：大部分准确，少量细节需调整
- 4分：有多处错误
- 1分：严重错误

评审清单：
- [ ] 测试步骤是否可执行？
- [ ] 预期结果是否可验证？
- [ ] 业务规则是否正确？
- [ ] 数据计算是否准确？

3. 可执行性评审（10分）

检查项：步骤是否清晰可执行？

评分标准：
- 10分：步骤清晰、无歧义
- 7分：大部分清晰，少量需补充
- 4分：有多处模糊
- 1分：无法执行

评审清单：
- [ ] 步骤是否具体？
- [ ] 操作是否可重复？
- [ ] 数据是否明确？
- [ ] 环境是否说明？

4. 风险覆盖评审（10分）

检查项：高风险区域是否深测？

评分标准：
- 10分：高风险区域100%覆盖
- 7分：高风险区域80%覆盖
- 4分：高风险区域50%覆盖
- 1分：高风险区域未覆盖

评审清单：
- [ ] 资金相关场景是否深测？
- [ ] 安全相关场景是否覆盖？
- [ ] 并发场景是否考虑？
- [ ] 异常恢复是否验证？

5. 规范性评审（10分）

检查项：格式是否符合标准？

评分标准：
- 10分：完全符合标准
- 7分：大部分符合，少量需调整
- 4分：格式混乱
- 1分：无格式

评审清单：
- [ ] 用例编号是否规范？
- [ ] 表格格式是否正确？
- [ ] 字段是否完整？
- [ ] 描述是否简洁？

6. 追溯性评审（10分）

检查项：需求ID/风险ID是否完整？

评分标准：
- 10分：每条用例都有需求ID和风险ID
- 7分：大部分有，少量缺失
- 4分：只有部分有
- 1分：无追溯信息

评审清单：
- [ ] 每条用例是否关联需求ID？
- [ ] 每条用例是否关联风险ID？
- [ ] ID格式是否统一？
- [ ] 追溯链是否完整？

评审报告模板

## AI输出评审报告

### 评审摘要
- 评审日期：YYYY-MM-DD
- 用例总数：XX条
- 综合评分：XX/60分

### 六维评分
| 维度 | 分数 | 评价 | 改进建议 |
|------|------|------|---------|
| 完整性 | X/10 | [评价] | [建议] |
| 准确性 | X/10 | [评价] | [建议] |
| 可执行性 | X/10 | [评价] | [建议] |
| 风险覆盖 | X/10 | [评价] | [建议] |
| 规范性 | X/10 | [评价] | [建议] |
| 追溯性 | X/10 | [评价] | [建议] |

### 问题清单
| 用例编号 | 问题类型 | 问题描述 | 改进建议 |
|---------|---------|---------|---------|
| TC_XXX_001 | [类型] | [描述] | [建议] |

### 改进方向
1. [改进方向1]
2. [改进方向2]
3. [改进方向3]

发现问题的问法： "请按四维边界模型重新分析" "这个边界真的够深吗？"


### 3. 风险评审
**检查项**：高风险区是否深挖？

评审清单：

资金相关场景是否重点测试？
安全相关场景是否深度覆盖？
数据一致性是否验证？
并发冲突是否考虑？
第三方依赖是否Mock？

发现问题的问法： "这个功能挂了影响多大？" "高风险区域测试深度够吗？"


### 4. 一致性评审
**检查项**：有没有自相矛盾？

评审清单：

前置条件和测试步骤是否一致？
预期结果是否可验证？
不同用例间是否有冲突？
业务规则是否统一？

发现问题的问法： "检查这些用例间是否有矛盾" "这个预期结果真的可验证吗？"


### 5. 可实现性评审
**检查项**：能不能实际执行？

评审清单：

测试数据是否可构造？
测试环境是否可搭建？
测试步骤是否可执行？
预期结果是否可观测？

发现问题的问法： "这个用例能实际执行吗？" "测试数据从哪来？"


### 6. 冗余度评审
**检查项**：有没有无价值用例？

评审清单：

是否有重复覆盖的场景？
是否有低价值用例？
优先级标注是否合理？
测试效率是否最优？

发现问题的问法： "删除哪些用例不影响覆盖率？" "哪些用例可以合并？"


## 假设挖掘

AI输出中常见的隐含假设：

| 假设类型 | 示例 | 验证方法 |
|---------|------|---------|
| 用户行为假设 | "用户会正常输入" | 追问：用户误输入怎么办？ |
| 环境假设 | "网络正常" | 追问：网络异常时会怎样？ |
| 数据假设 | "数据格式正确" | 追问：格式错误时怎么处理？ |
| 时序假设 | "操作按顺序执行" | 追问：乱序执行会怎样？ |
| 依赖假设 | "第三方服务正常" | 追问：第三方挂了怎么办？ |

**挖掘问法**：

请列出你在输出中做的所有假设哪些假设可能不成立？如果假设不成立，测试场景会有什么变化？


## 迭代决策树

当AI输出不满意时：

输出不满意 │ ├── 完整性不够？ │ └── 补充场景：请补充[缺失的场景类型] │ ├── 深度不够？ │ └── 深入分析：请按[具体维度]深入分析 │ ├── 风险覆盖不足？ │ └── 重点强化：请对[高风险区域]做专项测试 │ ├── 有矛盾？ │ └── 修正一致性：请修正[具体矛盾点] │ └── 不可执行？ └── 调整可行性：请确保[测试步骤]可实际执行


## AI反驳机制

**核心原则**：让AI挑战你的假设，而不是迎合你。

### 反驳问法模板

模式1：质量负责人视角 "请站在质量负责人角度，指出可能遗漏的业务风险、过度测试的地方，以及上线前还需要确认的问题。"

模式2：故障反推视角 "请假设这个功能上线后出现严重问题，反推我现在的测试方案可能漏掉了什么。"

模式3：资源约束视角 "测试资源有限，请评估这些用例的投入产出比，哪些是必须测的，哪些可以简化或跳过。"

模式4：竞品对比视角 "如果竞争对手的同类功能比我们更稳定，可能是因为他们多测了哪些我们没覆盖的场景？"


### 反驳检查清单

- [ ] 是否要求AI挑战你的假设？
- [ ] 是否让AI从反面看问题？
- [ ] 是否评估了投入产出比？
- [ ] 是否识别了过度测试的区域？

## 投入产出评估

### 评估维度

| 维度 | 评估标准 | 权重 |
|------|---------|------|
| 业务价值 | 影响用户数×影响程度 | 40% |
| 风险等级 | 发生概率×影响程度 | 30% |
| 测试成本 | 用例数×执行时间 | 20% |
| 自动化潜力 | 是否适合自动化 | 10% |

### 评估矩阵

| 用例类型 | 业务价值 | 风险等级 | 测试成本 | 建议 |
|---------|---------|---------|---------|------|
| P0+高风险 | 高 | 高 | 中 | 必须测试，优先自动化 |
| P0+低风险 | 高 | 低 | 低 | 必须测试，手动即可 |
| P1+高风险 | 中 | 高 | 中 | 必须测试，考虑自动化 |
| P1+低风险 | 中 | 低 | 低 | 选择性测试 |
| P2+高风险 | 低 | 高 | 中 | 评估后决定 |
| P2+低风险 | 低 | 低 | 低 | 可跳过或简化 |

### ROI计算公式

ROI = (业务价值 × 风险等级) / 测试成本

示例：用例A：业务价值=5, 风险等级=5, 测试成本=2 ROI = (5×5)/2 = 12.5 → 高ROI，优先测试

用例B：业务价值=2, 风险等级=2, 测试成本=5 ROI = (2×2)/5 = 0.8 → 低ROI，可简化


## 评审报告模板

```markdown
## AI输出评审报告

### 总体评价
- 完整性：⭐⭐⭐⭐☆
- 深度：⭐⭐⭐☆☆
- 风险覆盖：⭐⭐⭐⭐☆
- 一致性：⭐⭐⭐⭐⭐
- 可实现性：⭐⭐⭐⭐☆
- 冗余度：⭐⭐⭐⭐☆

### 主要问题
1. [问题1]：[具体描述]
2. [问题2]：[具体描述]

### 改进建议
1. [建议1]：[具体方向]
2. [建议2]：[具体方向]

### 迭代方向
优先改进：[最关键的改进点]

验收清单

评审完成后检查：

是否识别了AI的隐含假设？
是否评估了覆盖完整性？
是否有明确的迭代方向？
评审报告是否可执行？