技能测试器
通过分析技能定义、生成全面的测试用例、执行测试并生成带评分的详细报告,系统化地测试和评估 Claude Code 技能。
测试工作流程
按顺序执行以下步骤:
1. 定位目标技能
识别要测试的技能:
用户说: "测试 PDF 技能"
→ 搜索: ~/.claude/skills/pdf/SKILL.md 或 pdf/SKILL.md
常见技能位置:
~/.claude/skills/<技能名称>/SKILL.md
./<技能名称>/SKILL.md
- 用户提供的路径
如果未找到技能,请询问用户正确的路径。
2. 解析技能定义
读取目标技能的 SKILL.md 并提取:
从前置数据中提取:
name - 技能标识符
description - 技能功能描述(用于触发场景)
从正文内容中提取:
- 核心能力和功能
- 工作流程或程序
- 打包资源(脚本、参考文档、资产)
- 使用示例或模式
3. 生成测试计划
创建覆盖以下内容的全面测试计划:
A. 触发测试
- 测试技能是否在描述的场景中被激活
- 测试边界情况(相似但不同的请求)
- 测试非触发场景(不应该激活的情况)
B. 功能测试
针对识别的每个能力/功能:
- 正常用例(正常使用)
- 边界情况(边界条件)
- 错误处理(无效输入)
C. 资源测试(如适用)
4. 执行测试
对于每个测试用例:
- 准备测试提示 - 编写应该触发功能的用户请求
- 执行 - 应用测试提示(模拟或实际运行)
- 观察 - 记录技能的行为
- 评估 - 与预期结果进行比较
使用一致的格式执行测试:
测试用例: [名称]
提示: "[用户请求]"
预期: [应该发生什么]
实际: [实际发生了什么]
结果: 通过 / 失败 / 部分通过
备注: [观察、问题、建议]
5. 评分每个测试
使用以下标准进行评分:
| 分数 | 含义 | 标准 |
|---|
| 5 | 优秀 | 完美执行,满足所有预期 |
| 4 | 良好 | 轻微问题,核心功能正常 |
| 3 | 可接受 | 可用但有明显局限 |
| 2 | 较差 | 重大问题,勉强可用 |
| 1 | 失败 | 无法按预期工作 |
| 0 | 不适用 | 测试不适用 |
6. 生成测试报告
创建具有以下结构的 Markdown 报告:
# 技能测试报告: [技能名称]
**测试日期:** [日期]
**技能位置:** [路径]
## 概要
- **总体评分:** [X]/5
- **通过测试:** [X]/[总数]
- **失败测试:** [X]
- **关键问题:** [列表或"无"]
## 测试结果
### 1. 触发测试
| 测试用例 | 提示 | 预期 | 实际 | 分数 |
|----------|------|------|------|------|
| ... | ... | ... | ... | ... |
### 2. 功能测试
#### [功能名称]
| 测试用例 | 描述 | 结果 | 分数 | 备注 |
|----------|------|------|------|------|
| ... | ... | ... | ... | ... |
### 3. 资源测试
[如适用]
## 详细发现
### 优势
- [技能做得好的方面]
### 不足
- [需要改进的方面]
### 建议
- [具体的改进建议]
## 测试环境
- **Claude 模型:** [使用的模型]
- **测试方法:** [模拟/执行]
- **测试深度:** [基础/全面]
---
报告由 skill-tester-cn 生成
将报告保存到当前工作目录:[技能名称]-测试报告-[时间戳].md
测试指南
全面覆盖
测试技能描述和正文中提到的所有能力,不要跳过功能。
示例: 如果技能声称支持"PDF创建、编辑和旋转",测试所有三项:
- 创建 PDF
- 编辑现有 PDF
- 旋转 PDF
真实的测试提示
使用真实用户会说的自然语言提示:
✅ 好: "帮我合并这两个 PDF"
❌ 差: "执行 PDF 合并功能"
需要考虑的边界情况
- 空输入(空文件、空白字符串)
- 无效输入(错误的文件类型、格式错误的数据)
- 边界条件(非常大的文件、大量项目)
- 资源缺失(引用的文件不存在)
- 并发操作(多个同时请求)
客观评估
基于实际行为而非理论能力评分:
- 如果功能已记录但不起作用 → 失败
- 如果功能工作方式与记录不同 → 部分通过
- 如果功能按记录工作 → 通过
处理测试失败
当测试失败时:
- 记录确切的失败模式
- 检查是技能问题还是环境问题
- 建议潜在的修复方案
- 继续测试其他功能
使用示例
用户: "测试 docx 技能"
助手:
1. 定位: ~/.claude/skills/docx/SKILL.md
2. 解析: 读取技能定义
3. 识别能力:
- 创建新文档
- 编辑现有文档
- 处理修订跟踪
- 添加注释
- 提取文本
4. 为每个能力生成测试用例
5. 执行测试(模拟或实际)
6. 生成: docx-测试报告-2025-01-15.md
评分标准总结
总体评分计算:
- 所有测试分数的平均值(不包括不适用测试)
- 保留1位小数
分数解读:
- 4.5-5.0: 生产就绪
- 3.5-4.4: 良好,有轻微问题
- 2.5-3.4: 需要改进
- 1.5-2.4: 有重大问题
- 0.0-1.4: 不可用