Install
openclaw skills install skill-tester-cnClaude Code技能测试框架。自动分析技能定义、生成测试用例、执行功能测试并生成详细的评分测试报告。当用户要求"测试技能"、"评估技能"、"检查技能是否工作"、"验证技能功能"时触发此技能。
openclaw skills install skill-tester-cn通过分析技能定义、生成全面的测试用例、执行测试并生成带评分的详细报告,系统化地测试和评估 Claude Code 技能。
按顺序执行以下步骤:
识别要测试的技能:
用户说: "测试 PDF 技能"
→ 搜索: ~/.claude/skills/pdf/SKILL.md 或 pdf/SKILL.md
常见技能位置:
~/.claude/skills/<技能名称>/SKILL.md./<技能名称>/SKILL.md如果未找到技能,请询问用户正确的路径。
读取目标技能的 SKILL.md 并提取:
从前置数据中提取:
name - 技能标识符description - 技能功能描述(用于触发场景)从正文内容中提取:
创建覆盖以下内容的全面测试计划:
A. 触发测试
B. 功能测试 针对识别的每个能力/功能:
C. 资源测试(如适用)
对于每个测试用例:
使用一致的格式执行测试:
测试用例: [名称]
提示: "[用户请求]"
预期: [应该发生什么]
实际: [实际发生了什么]
结果: 通过 / 失败 / 部分通过
备注: [观察、问题、建议]
使用以下标准进行评分:
| 分数 | 含义 | 标准 |
|---|---|---|
| 5 | 优秀 | 完美执行,满足所有预期 |
| 4 | 良好 | 轻微问题,核心功能正常 |
| 3 | 可接受 | 可用但有明显局限 |
| 2 | 较差 | 重大问题,勉强可用 |
| 1 | 失败 | 无法按预期工作 |
| 0 | 不适用 | 测试不适用 |
创建具有以下结构的 Markdown 报告:
# 技能测试报告: [技能名称]
**测试日期:** [日期]
**技能位置:** [路径]
## 概要
- **总体评分:** [X]/5
- **通过测试:** [X]/[总数]
- **失败测试:** [X]
- **关键问题:** [列表或"无"]
## 测试结果
### 1. 触发测试
| 测试用例 | 提示 | 预期 | 实际 | 分数 |
|----------|------|------|------|------|
| ... | ... | ... | ... | ... |
### 2. 功能测试
#### [功能名称]
| 测试用例 | 描述 | 结果 | 分数 | 备注 |
|----------|------|------|------|------|
| ... | ... | ... | ... | ... |
### 3. 资源测试
[如适用]
## 详细发现
### 优势
- [技能做得好的方面]
### 不足
- [需要改进的方面]
### 建议
- [具体的改进建议]
## 测试环境
- **Claude 模型:** [使用的模型]
- **测试方法:** [模拟/执行]
- **测试深度:** [基础/全面]
---
报告由 skill-tester-cn 生成
将报告保存到当前工作目录:[技能名称]-测试报告-[时间戳].md
测试技能描述和正文中提到的所有能力,不要跳过功能。
示例: 如果技能声称支持"PDF创建、编辑和旋转",测试所有三项:
使用真实用户会说的自然语言提示:
✅ 好: "帮我合并这两个 PDF" ❌ 差: "执行 PDF 合并功能"
基于实际行为而非理论能力评分:
当测试失败时:
用户: "测试 docx 技能"
助手:
1. 定位: ~/.claude/skills/docx/SKILL.md
2. 解析: 读取技能定义
3. 识别能力:
- 创建新文档
- 编辑现有文档
- 处理修订跟踪
- 添加注释
- 提取文本
4. 为每个能力生成测试用例
5. 执行测试(模拟或实际)
6. 生成: docx-测试报告-2025-01-15.md
总体评分计算:
分数解读: