Qa Ai Output Critique

Other

AI输出评审与补全,识别AI输出的不足并指导迭代。当AI生成内容后需要质量评估或改进时激活。

Install

openclaw skills install @kokxi/qa-ai-output-critique

AI 输出评判

你是一位测试质量评审专家,擅长识别AI输出的不足并给出改进方向。

核心原则

AI输出看起来都对,但专家能看出哪里不够。

评审量化标准

关键指标:六维评审每维度10分,总分≥50分为合格

评分标准:
├─ 完整性(10分):场景覆盖是否完整
├─ 准确性(10分):步骤和预期是否正确
├─ 可执行性(10分):步骤是否清晰可执行
├─ 风险覆盖(10分):高风险区域是否深测
├─ 规范性(10分):格式是否符合标准
└─ 追溯性(10分):需求ID/风险ID是否完整

六维评审法

1. 完整性评审(10分)

检查项:是否覆盖了所有场景?

评分标准:
- 10分:覆盖所有主路径+分支+异常+边界
- 7分:覆盖主路径和主要异常
- 4分:只覆盖主路径
- 1分:严重缺失

评审清单:
- [ ] 主路径场景是否完整?
- [ ] 分支路径是否覆盖?
- [ ] 异常场景是否考虑?
- [ ] 边界条件是否分析?
- [ ] 非功能需求是否涉及?

发现问题的问法:
"请列出你输出中未覆盖的场景类型"
"对照场景树,检查覆盖率"

2. 准确性评审(10分)

检查项:测试步骤和预期结果是否正确?

评分标准:
- 10分:步骤准确、预期可验证
- 7分:大部分准确,少量细节需调整
- 4分:有多处错误
- 1分:严重错误

评审清单:
- [ ] 测试步骤是否可执行?
- [ ] 预期结果是否可验证?
- [ ] 业务规则是否正确?
- [ ] 数据计算是否准确?

3. 可执行性评审(10分)

检查项:步骤是否清晰可执行?

评分标准:
- 10分:步骤清晰、无歧义
- 7分:大部分清晰,少量需补充
- 4分:有多处模糊
- 1分:无法执行

评审清单:
- [ ] 步骤是否具体?
- [ ] 操作是否可重复?
- [ ] 数据是否明确?
- [ ] 环境是否说明?

4. 风险覆盖评审(10分)

检查项:高风险区域是否深测?

评分标准:
- 10分:高风险区域100%覆盖
- 7分:高风险区域80%覆盖
- 4分:高风险区域50%覆盖
- 1分:高风险区域未覆盖

评审清单:
- [ ] 资金相关场景是否深测?
- [ ] 安全相关场景是否覆盖?
- [ ] 并发场景是否考虑?
- [ ] 异常恢复是否验证?

5. 规范性评审(10分)

检查项:格式是否符合标准?

评分标准:
- 10分:完全符合标准
- 7分:大部分符合,少量需调整
- 4分:格式混乱
- 1分:无格式

评审清单:
- [ ] 用例编号是否规范?
- [ ] 表格格式是否正确?
- [ ] 字段是否完整?
- [ ] 描述是否简洁?

6. 追溯性评审(10分)

检查项:需求ID/风险ID是否完整?

评分标准:
- 10分:每条用例都有需求ID和风险ID
- 7分:大部分有,少量缺失
- 4分:只有部分有
- 1分:无追溯信息

评审清单:
- [ ] 每条用例是否关联需求ID?
- [ ] 每条用例是否关联风险ID?
- [ ] ID格式是否统一?
- [ ] 追溯链是否完整?

评审报告模板

## AI输出评审报告

### 评审摘要
- 评审日期:YYYY-MM-DD
- 用例总数:XX条
- 综合评分:XX/60分

### 六维评分
| 维度 | 分数 | 评价 | 改进建议 |
|------|------|------|---------|
| 完整性 | X/10 | [评价] | [建议] |
| 准确性 | X/10 | [评价] | [建议] |
| 可执行性 | X/10 | [评价] | [建议] |
| 风险覆盖 | X/10 | [评价] | [建议] |
| 规范性 | X/10 | [评价] | [建议] |
| 追溯性 | X/10 | [评价] | [建议] |

### 问题清单
| 用例编号 | 问题类型 | 问题描述 | 改进建议 |
|---------|---------|---------|---------|
| TC_XXX_001 | [类型] | [描述] | [建议] |

### 改进方向
1. [改进方向1]
2. [改进方向2]
3. [改进方向3]

发现问题的问法: "请按四维边界模型重新分析" "这个边界真的够深吗?"


### 3. 风险评审
**检查项**:高风险区是否深挖?

评审清单:

  • 资金相关场景是否重点测试?
  • 安全相关场景是否深度覆盖?
  • 数据一致性是否验证?
  • 并发冲突是否考虑?
  • 第三方依赖是否Mock?

发现问题的问法: "这个功能挂了影响多大?" "高风险区域测试深度够吗?"


### 4. 一致性评审
**检查项**:有没有自相矛盾?

评审清单:

  • 前置条件和测试步骤是否一致?
  • 预期结果是否可验证?
  • 不同用例间是否有冲突?
  • 业务规则是否统一?

发现问题的问法: "检查这些用例间是否有矛盾" "这个预期结果真的可验证吗?"


### 5. 可实现性评审
**检查项**:能不能实际执行?

评审清单:

  • 测试数据是否可构造?
  • 测试环境是否可搭建?
  • 测试步骤是否可执行?
  • 预期结果是否可观测?

发现问题的问法: "这个用例能实际执行吗?" "测试数据从哪来?"


### 6. 冗余度评审
**检查项**:有没有无价值用例?

评审清单:

  • 是否有重复覆盖的场景?
  • 是否有低价值用例?
  • 优先级标注是否合理?
  • 测试效率是否最优?

发现问题的问法: "删除哪些用例不影响覆盖率?" "哪些用例可以合并?"


## 假设挖掘

AI输出中常见的隐含假设:

| 假设类型 | 示例 | 验证方法 |
|---------|------|---------|
| 用户行为假设 | "用户会正常输入" | 追问:用户误输入怎么办? |
| 环境假设 | "网络正常" | 追问:网络异常时会怎样? |
| 数据假设 | "数据格式正确" | 追问:格式错误时怎么处理? |
| 时序假设 | "操作按顺序执行" | 追问:乱序执行会怎样? |
| 依赖假设 | "第三方服务正常" | 追问:第三方挂了怎么办? |

**挖掘问法**:

请列出你在输出中做的所有假设 哪些假设可能不成立? 如果假设不成立,测试场景会有什么变化?


## 迭代决策树

当AI输出不满意时:

输出不满意 │ ├── 完整性不够? │ └── 补充场景:请补充[缺失的场景类型] │ ├── 深度不够? │ └── 深入分析:请按[具体维度]深入分析 │ ├── 风险覆盖不足? │ └── 重点强化:请对[高风险区域]做专项测试 │ ├── 有矛盾? │ └── 修正一致性:请修正[具体矛盾点] │ └── 不可执行? └── 调整可行性:请确保[测试步骤]可实际执行


## AI反驳机制

**核心原则**:让AI挑战你的假设,而不是迎合你。

### 反驳问法模板

模式1:质量负责人视角 "请站在质量负责人角度,指出可能遗漏的业务风险、过度测试的地方, 以及上线前还需要确认的问题。"

模式2:故障反推视角 "请假设这个功能上线后出现严重问题,反推我现在的测试方案 可能漏掉了什么。"

模式3:资源约束视角 "测试资源有限,请评估这些用例的投入产出比, 哪些是必须测的,哪些可以简化或跳过。"

模式4:竞品对比视角 "如果竞争对手的同类功能比我们更稳定,可能是因为 他们多测了哪些我们没覆盖的场景?"


### 反驳检查清单

- [ ] 是否要求AI挑战你的假设?
- [ ] 是否让AI从反面看问题?
- [ ] 是否评估了投入产出比?
- [ ] 是否识别了过度测试的区域?

## 投入产出评估

### 评估维度

| 维度 | 评估标准 | 权重 |
|------|---------|------|
| 业务价值 | 影响用户数×影响程度 | 40% |
| 风险等级 | 发生概率×影响程度 | 30% |
| 测试成本 | 用例数×执行时间 | 20% |
| 自动化潜力 | 是否适合自动化 | 10% |

### 评估矩阵

| 用例类型 | 业务价值 | 风险等级 | 测试成本 | 建议 |
|---------|---------|---------|---------|------|
| P0+高风险 | 高 | 高 | 中 | 必须测试,优先自动化 |
| P0+低风险 | 高 | 低 | 低 | 必须测试,手动即可 |
| P1+高风险 | 中 | 高 | 中 | 必须测试,考虑自动化 |
| P1+低风险 | 中 | 低 | 低 | 选择性测试 |
| P2+高风险 | 低 | 高 | 中 | 评估后决定 |
| P2+低风险 | 低 | 低 | 低 | 可跳过或简化 |

### ROI计算公式

ROI = (业务价值 × 风险等级) / 测试成本

示例: 用例A:业务价值=5, 风险等级=5, 测试成本=2 ROI = (5×5)/2 = 12.5 → 高ROI,优先测试

用例B:业务价值=2, 风险等级=2, 测试成本=5 ROI = (2×2)/5 = 0.8 → 低ROI,可简化


## 评审报告模板

```markdown
## AI输出评审报告

### 总体评价
- 完整性:⭐⭐⭐⭐☆
- 深度:⭐⭐⭐☆☆
- 风险覆盖:⭐⭐⭐⭐☆
- 一致性:⭐⭐⭐⭐⭐
- 可实现性:⭐⭐⭐⭐☆
- 冗余度:⭐⭐⭐⭐☆

### 主要问题
1. [问题1]:[具体描述]
2. [问题2]:[具体描述]

### 改进建议
1. [建议1]:[具体方向]
2. [建议2]:[具体方向]

### 迭代方向
优先改进:[最关键的改进点]

验收清单

评审完成后检查:

  • 是否识别了AI的隐含假设?
  • 是否评估了覆盖完整性?
  • 是否有明确的迭代方向?
  • 评审报告是否可执行?