skill-tester-cn

Claude Code技能测试框架。自动分析技能定义、生成测试用例、执行功能测试并生成详细的评分测试报告。当用户要求"测试技能"、"评估技能"、"检查技能是否工作"、"验证技能功能"时触发此技能。

Install

openclaw skills install skill-tester-cn

技能测试器

通过分析技能定义、生成全面的测试用例、执行测试并生成带评分的详细报告，系统化地测试和评估 Claude Code 技能。

测试工作流程

按顺序执行以下步骤：

1. 定位目标技能

识别要测试的技能：

用户说: "测试 PDF 技能"
→ 搜索: ~/.claude/skills/pdf/SKILL.md 或 pdf/SKILL.md

常见技能位置：

~/.claude/skills/<技能名称>/SKILL.md
./<技能名称>/SKILL.md
用户提供的路径

如果未找到技能，请询问用户正确的路径。

2. 解析技能定义

读取目标技能的 SKILL.md 并提取：

从前置数据中提取：

name - 技能标识符
description - 技能功能描述（用于触发场景）

从正文内容中提取：

核心能力和功能
工作流程或程序
打包资源（脚本、参考文档、资产）
使用示例或模式

3. 生成测试计划

创建覆盖以下内容的全面测试计划：

A. 触发测试

测试技能是否在描述的场景中被激活
测试边界情况（相似但不同的请求）
测试非触发场景（不应该激活的情况）

B. 功能测试 针对识别的每个能力/功能：

正常用例（正常使用）
边界情况（边界条件）
错误处理（无效输入）

C. 资源测试（如适用）

脚本执行
参考文档可用性
资产可访问性

4. 执行测试

对于每个测试用例：

准备测试提示 - 编写应该触发功能的用户请求
执行 - 应用测试提示（模拟或实际运行）
观察 - 记录技能的行为
评估 - 与预期结果进行比较

使用一致的格式执行测试：

测试用例: [名称]
提示: "[用户请求]"
预期: [应该发生什么]
实际: [实际发生了什么]
结果: 通过 / 失败 / 部分通过
备注: [观察、问题、建议]

5. 评分每个测试

使用以下标准进行评分：

分数	含义	标准
5	优秀	完美执行，满足所有预期
4	良好	轻微问题，核心功能正常
3	可接受	可用但有明显局限
2	较差	重大问题，勉强可用
1	失败	无法按预期工作
0	不适用	测试不适用

6. 生成测试报告

创建具有以下结构的 Markdown 报告：

# 技能测试报告: [技能名称]

**测试日期:** [日期]
**技能位置:** [路径]

## 概要

- **总体评分:** [X]/5
- **通过测试:** [X]/[总数]
- **失败测试:** [X]
- **关键问题:** [列表或"无"]

## 测试结果

### 1. 触发测试

| 测试用例 | 提示 | 预期 | 实际 | 分数 |
|----------|------|------|------|------|
| ... | ... | ... | ... | ... |

### 2. 功能测试

#### [功能名称]

| 测试用例 | 描述 | 结果 | 分数 | 备注 |
|----------|------|------|------|------|
| ... | ... | ... | ... | ... |

### 3. 资源测试

[如适用]

## 详细发现

### 优势
- [技能做得好的方面]

### 不足
- [需要改进的方面]

### 建议
- [具体的改进建议]

## 测试环境

- **Claude 模型:** [使用的模型]
- **测试方法:** [模拟/执行]
- **测试深度:** [基础/全面]

---

报告由 skill-tester-cn 生成

将报告保存到当前工作目录：[技能名称]-测试报告-[时间戳].md

测试指南

全面覆盖

测试技能描述和正文中提到的所有能力，不要跳过功能。

示例： 如果技能声称支持"PDF创建、编辑和旋转"，测试所有三项：

创建 PDF
编辑现有 PDF
旋转 PDF

真实的测试提示

使用真实用户会说的自然语言提示：

✅ 好: "帮我合并这两个 PDF" ❌ 差: "执行 PDF 合并功能"

需要考虑的边界情况

空输入（空文件、空白字符串）
无效输入（错误的文件类型、格式错误的数据）
边界条件（非常大的文件、大量项目）
资源缺失（引用的文件不存在）
并发操作（多个同时请求）

客观评估

基于实际行为而非理论能力评分：

如果功能已记录但不起作用 → 失败
如果功能工作方式与记录不同 → 部分通过
如果功能按记录工作 → 通过

处理测试失败

当测试失败时：

记录确切的失败模式
检查是技能问题还是环境问题
建议潜在的修复方案
继续测试其他功能

使用示例

用户: "测试 docx 技能"

助手:
1. 定位: ~/.claude/skills/docx/SKILL.md
2. 解析: 读取技能定义
3. 识别能力:
   - 创建新文档
   - 编辑现有文档
   - 处理修订跟踪
   - 添加注释
   - 提取文本
4. 为每个能力生成测试用例
5. 执行测试（模拟或实际）
6. 生成: docx-测试报告-2025-01-15.md

评分标准总结

总体评分计算：

所有测试分数的平均值（不包括不适用测试）
保留1位小数

分数解读：

4.5-5.0: 生产就绪
3.5-4.4: 良好，有轻微问题
2.5-3.4: 需要改进
1.5-2.4: 有重大问题
0.0-1.4: 不可用