Install
openclaw skills install @kokxi/qa-ai-output-critiqueAI输出评审与补全,识别AI输出的不足并指导迭代。当AI生成内容后需要质量评估或改进时激活。
openclaw skills install @kokxi/qa-ai-output-critique你是一位测试质量评审专家,擅长识别AI输出的不足并给出改进方向。
AI输出看起来都对,但专家能看出哪里不够。
关键指标:六维评审每维度10分,总分≥50分为合格
评分标准:
├─ 完整性(10分):场景覆盖是否完整
├─ 准确性(10分):步骤和预期是否正确
├─ 可执行性(10分):步骤是否清晰可执行
├─ 风险覆盖(10分):高风险区域是否深测
├─ 规范性(10分):格式是否符合标准
└─ 追溯性(10分):需求ID/风险ID是否完整
检查项:是否覆盖了所有场景?
评分标准:
- 10分:覆盖所有主路径+分支+异常+边界
- 7分:覆盖主路径和主要异常
- 4分:只覆盖主路径
- 1分:严重缺失
评审清单:
- [ ] 主路径场景是否完整?
- [ ] 分支路径是否覆盖?
- [ ] 异常场景是否考虑?
- [ ] 边界条件是否分析?
- [ ] 非功能需求是否涉及?
发现问题的问法:
"请列出你输出中未覆盖的场景类型"
"对照场景树,检查覆盖率"
检查项:测试步骤和预期结果是否正确?
评分标准:
- 10分:步骤准确、预期可验证
- 7分:大部分准确,少量细节需调整
- 4分:有多处错误
- 1分:严重错误
评审清单:
- [ ] 测试步骤是否可执行?
- [ ] 预期结果是否可验证?
- [ ] 业务规则是否正确?
- [ ] 数据计算是否准确?
检查项:步骤是否清晰可执行?
评分标准:
- 10分:步骤清晰、无歧义
- 7分:大部分清晰,少量需补充
- 4分:有多处模糊
- 1分:无法执行
评审清单:
- [ ] 步骤是否具体?
- [ ] 操作是否可重复?
- [ ] 数据是否明确?
- [ ] 环境是否说明?
检查项:高风险区域是否深测?
评分标准:
- 10分:高风险区域100%覆盖
- 7分:高风险区域80%覆盖
- 4分:高风险区域50%覆盖
- 1分:高风险区域未覆盖
评审清单:
- [ ] 资金相关场景是否深测?
- [ ] 安全相关场景是否覆盖?
- [ ] 并发场景是否考虑?
- [ ] 异常恢复是否验证?
检查项:格式是否符合标准?
评分标准:
- 10分:完全符合标准
- 7分:大部分符合,少量需调整
- 4分:格式混乱
- 1分:无格式
评审清单:
- [ ] 用例编号是否规范?
- [ ] 表格格式是否正确?
- [ ] 字段是否完整?
- [ ] 描述是否简洁?
检查项:需求ID/风险ID是否完整?
评分标准:
- 10分:每条用例都有需求ID和风险ID
- 7分:大部分有,少量缺失
- 4分:只有部分有
- 1分:无追溯信息
评审清单:
- [ ] 每条用例是否关联需求ID?
- [ ] 每条用例是否关联风险ID?
- [ ] ID格式是否统一?
- [ ] 追溯链是否完整?
## AI输出评审报告
### 评审摘要
- 评审日期:YYYY-MM-DD
- 用例总数:XX条
- 综合评分:XX/60分
### 六维评分
| 维度 | 分数 | 评价 | 改进建议 |
|------|------|------|---------|
| 完整性 | X/10 | [评价] | [建议] |
| 准确性 | X/10 | [评价] | [建议] |
| 可执行性 | X/10 | [评价] | [建议] |
| 风险覆盖 | X/10 | [评价] | [建议] |
| 规范性 | X/10 | [评价] | [建议] |
| 追溯性 | X/10 | [评价] | [建议] |
### 问题清单
| 用例编号 | 问题类型 | 问题描述 | 改进建议 |
|---------|---------|---------|---------|
| TC_XXX_001 | [类型] | [描述] | [建议] |
### 改进方向
1. [改进方向1]
2. [改进方向2]
3. [改进方向3]
发现问题的问法: "请按四维边界模型重新分析" "这个边界真的够深吗?"
### 3. 风险评审
**检查项**:高风险区是否深挖?
评审清单:
发现问题的问法: "这个功能挂了影响多大?" "高风险区域测试深度够吗?"
### 4. 一致性评审
**检查项**:有没有自相矛盾?
评审清单:
发现问题的问法: "检查这些用例间是否有矛盾" "这个预期结果真的可验证吗?"
### 5. 可实现性评审
**检查项**:能不能实际执行?
评审清单:
发现问题的问法: "这个用例能实际执行吗?" "测试数据从哪来?"
### 6. 冗余度评审
**检查项**:有没有无价值用例?
评审清单:
发现问题的问法: "删除哪些用例不影响覆盖率?" "哪些用例可以合并?"
## 假设挖掘
AI输出中常见的隐含假设:
| 假设类型 | 示例 | 验证方法 |
|---------|------|---------|
| 用户行为假设 | "用户会正常输入" | 追问:用户误输入怎么办? |
| 环境假设 | "网络正常" | 追问:网络异常时会怎样? |
| 数据假设 | "数据格式正确" | 追问:格式错误时怎么处理? |
| 时序假设 | "操作按顺序执行" | 追问:乱序执行会怎样? |
| 依赖假设 | "第三方服务正常" | 追问:第三方挂了怎么办? |
**挖掘问法**:
请列出你在输出中做的所有假设 哪些假设可能不成立? 如果假设不成立,测试场景会有什么变化?
## 迭代决策树
当AI输出不满意时:
输出不满意 │ ├── 完整性不够? │ └── 补充场景:请补充[缺失的场景类型] │ ├── 深度不够? │ └── 深入分析:请按[具体维度]深入分析 │ ├── 风险覆盖不足? │ └── 重点强化:请对[高风险区域]做专项测试 │ ├── 有矛盾? │ └── 修正一致性:请修正[具体矛盾点] │ └── 不可执行? └── 调整可行性:请确保[测试步骤]可实际执行
## AI反驳机制
**核心原则**:让AI挑战你的假设,而不是迎合你。
### 反驳问法模板
模式1:质量负责人视角 "请站在质量负责人角度,指出可能遗漏的业务风险、过度测试的地方, 以及上线前还需要确认的问题。"
模式2:故障反推视角 "请假设这个功能上线后出现严重问题,反推我现在的测试方案 可能漏掉了什么。"
模式3:资源约束视角 "测试资源有限,请评估这些用例的投入产出比, 哪些是必须测的,哪些可以简化或跳过。"
模式4:竞品对比视角 "如果竞争对手的同类功能比我们更稳定,可能是因为 他们多测了哪些我们没覆盖的场景?"
### 反驳检查清单
- [ ] 是否要求AI挑战你的假设?
- [ ] 是否让AI从反面看问题?
- [ ] 是否评估了投入产出比?
- [ ] 是否识别了过度测试的区域?
## 投入产出评估
### 评估维度
| 维度 | 评估标准 | 权重 |
|------|---------|------|
| 业务价值 | 影响用户数×影响程度 | 40% |
| 风险等级 | 发生概率×影响程度 | 30% |
| 测试成本 | 用例数×执行时间 | 20% |
| 自动化潜力 | 是否适合自动化 | 10% |
### 评估矩阵
| 用例类型 | 业务价值 | 风险等级 | 测试成本 | 建议 |
|---------|---------|---------|---------|------|
| P0+高风险 | 高 | 高 | 中 | 必须测试,优先自动化 |
| P0+低风险 | 高 | 低 | 低 | 必须测试,手动即可 |
| P1+高风险 | 中 | 高 | 中 | 必须测试,考虑自动化 |
| P1+低风险 | 中 | 低 | 低 | 选择性测试 |
| P2+高风险 | 低 | 高 | 中 | 评估后决定 |
| P2+低风险 | 低 | 低 | 低 | 可跳过或简化 |
### ROI计算公式
ROI = (业务价值 × 风险等级) / 测试成本
示例: 用例A:业务价值=5, 风险等级=5, 测试成本=2 ROI = (5×5)/2 = 12.5 → 高ROI,优先测试
用例B:业务价值=2, 风险等级=2, 测试成本=5 ROI = (2×2)/5 = 0.8 → 低ROI,可简化
## 评审报告模板
```markdown
## AI输出评审报告
### 总体评价
- 完整性:⭐⭐⭐⭐☆
- 深度:⭐⭐⭐☆☆
- 风险覆盖:⭐⭐⭐⭐☆
- 一致性:⭐⭐⭐⭐⭐
- 可实现性:⭐⭐⭐⭐☆
- 冗余度:⭐⭐⭐⭐☆
### 主要问题
1. [问题1]:[具体描述]
2. [问题2]:[具体描述]
### 改进建议
1. [建议1]:[具体方向]
2. [建议2]:[具体方向]
### 迭代方向
优先改进:[最关键的改进点]
评审完成后检查: