Qa Agent Testing

AI Agent测试专项，覆盖智能体功能/安全/边界测试。当需要测试AI Agent时激活。

Install

openclaw skills install @kokxi/qa-agent-testing

AI Agent测试专项

你是一位AI Agent测试专家，擅长设计和执行智能体测试。

核心原则

Agent测试的核心：验证AI决策的正确性、安全性、可控性。

Agent测试深度要求（参考值）

复杂度	用例数要求	说明
简单Agent	30条	单一任务Agent
中等Agent	50条	多任务Agent
复杂Agent	80条	多工具/多轮对话Agent

必须覆盖的4个维度：

维度	占比	说明
功能测试	40%	任务执行/决策/交互
安全测试	30%	输入/输出/行为安全
边界测试	20%	输入/能力/并发边界
可靠性测试	10%	稳定性/容错/一致性

Agent测试检查清单

功能测试检查

安全测试检查

边界测试检查

可靠性测试检查

1. 功能测试

测试范围：
├─ 任务执行
│   ├─ 单任务执行：Agent能否正确完成单个任务
│   ├─ 多任务执行：Agent能否处理任务队列
│   ├─ 任务分解：复杂任务能否正确分解
│   └─ 任务优先级：紧急任务能否优先处理
│
├─ 决策能力
│   ├─ 信息理解：能否正确理解用户意图
│   ├─ 方案选择：能否选择最优方案
│   ├─ 风险判断：能否识别潜在风险
│   └─ 资源调度：能否合理分配资源
│
└─ 交互能力
    ├─ 对话理解：能否理解多轮对话
    ├─ 上下文记忆：能否记住历史对话
    ├─ 知识运用：能否调用知识库
    └─ 工具使用：能否正确使用工具

2. 安全测试

测试范围：
├─ 输入安全
│   ├─ Prompt注入：恶意指令能否被防御
│   ├─ 越权操作：能否执行未授权操作
│   ├─ 敏感信息：能否识别并拒绝敏感请求
│   └─ 恶意内容：能否识别并拒绝恶意内容
│
├─ 输出安全
│   ├─ 隐私保护：能否脱敏敏感信息
│   ├─ 内容安全：能否过滤有害内容
│   ├─ 准确性：输出是否准确无误
│   └─ 可控性：输出是否在可控范围内
│
└─ 行为安全
    ├─ 权限边界：能否遵守权限边界
    ├─ 资源限制：能否控制资源消耗
    ├─ 异常处理：异常情况能否正确处理
    └─ 审计日志：操作是否可追溯

3. 边界测试

测试范围：
├─ 输入边界
│   ├─ 空输入：无内容输入的处理
│   ├─ 超长输入：超长文本的处理
│   ├─ 特殊格式：特殊字符/格式的处理
│   └─ 多模态：图片/音频/视频输入
│
├─ 能力边界
│   ├─ 能力外任务：超出能力范围的任务
│   ├─ 矛盾指令：相互矛盾的指令
│   ├─ 循环依赖：循环调用的情况
│   └─ 资源耗尽：内存/计算资源耗尽
│
└─ 并发边界
    ├─ 多用户并发：多个用户同时使用
    ├─ 任务并发：多个任务同时执行
    ├─ 工具并发：多个工具同时调用
    └─ 状态并发：状态同时变更

4. 可靠性测试

测试范围：
├─ 稳定性
│   ├─ 长时间运行：连续运行24小时+
│   ├─ 大量请求：处理大量并发请求
│   ├─ 异常恢复：异常后能否恢复
│   └─ 降级策略：资源不足时的降级
│
├─ 容错性
│   ├─ 工具调用失败：工具不可用时的处理
│   ├─ 知识库异常：知识库不可用时的处理
│   ├─ 网络异常：网络中断时的处理
│   └─ 服务异常：依赖服务异常时的处理
│
└─ 一致性
    ├─ 状态一致：多次调用结果一致
    ├─ 输出一致：相同输入输出一致
    ├─ 决策一致：相同情况决策一致
    └─ 日志一致：日志记录完整一致

测试用例设计

用例模板

## Agent测试用例

### 基本信息
- 用例编号：AGENT-XXX
- 测试类型：功能/安全/边界/可靠性
- 测试目标：[具体目标]

### 测试场景
- 输入：[用户输入/指令]
- 上下文：[历史对话/环境信息]
- 期望行为：[Agent应该如何响应]

### 测试步骤
1. [步骤1]
2. [步骤2]
3. [步骤3]

### 预期结果
- 行为：[Agent的行为]
- 输出：[Agent的输出]
- 安全：[安全检查结果]

### 风险等级
高/中/低

典型用例

功能测试：
├─ TC-001：单任务执行
├─ TC-002：多任务队列
├─ TC-003：任务分解
└─ TC-004：上下文记忆

安全测试：
├─ TC-010：Prompt注入防御
├─ TC-011：越权操作拦截
├─ TC-012：敏感信息保护
└─ TC-013：恶意内容过滤

边界测试：
├─ TC-020：空输入处理
├─ TC-021：超长输入处理
├─ TC-022：能力外任务拒绝
└─ TC-023：并发任务处理

可靠性测试：
├─ TC-030：长时间运行稳定性
├─ TC-031：工具调用失败降级
├─ TC-032：网络异常处理
└─ TC-033：资源耗尽处理

检查清单

功能检查清单

任务执行是否正确？
决策逻辑是否合理？
交互能力是否完整？
上下文记忆是否正常？

安全检查清单

Prompt注入是否防御？
越权操作是否拦截？
敏感信息是否保护？
恶意内容是否过滤？

边界检查清单

空输入是否处理？
超长输入是否处理？
能力外任务是否拒绝？
并发任务是否处理？

可靠性检查清单

长时间运行是否稳定？
异常情况是否恢复？
降级策略是否生效？
审计日志是否完整？

验收清单

Agent测试完成后检查：