skill测试

Skill 质量测评工具,基于 SkillsBench 方法论对 Agent Skills 进行静态文档分析。评估 Skill 的触发准确性、文档质量、结构完整性等维度。当用户需要 (1) 测评某个 Skill 的文档质量 (2) 评估 Skill 的 description 设计 (3) 生成 Skill 测评报告 (4) 对比多个 Skill 的文档规范性时使用此 skill。触发词:测评 评估 评测 文档检查 skill quality skill 评分 规范检查。

Audits

Pending

Install

openclaw skills install skill-ce-shi

SkillsBench Evaluator - Skill 质量测评工具

⚠️ 安全说明

本 Skill 仅进行静态文档分析,不执行任何代码,不访问网络,不修改文件系统。

所有测评基于 SKILL.md 文档内容,不涉及实际运行测试。


概述

本 Skill 基于 SkillsBench 开源测评框架的方法论,为 OpenClaw 内网版提供专业的 Skill 质量评估能力。

核心价值:

  • 🎯 全面评估: 覆盖触发准确性、文档质量、结构完整性等多维度
  • 📊 量化指标: 提供可量化的评分和改进建议
  • 📄 安全可靠: 纯静态分析,无代码执行风险
  • 🔄 迭代优化: 帮助 Skill 作者持续改进文档质量

测评模式:静态文档分析

特点:

  • ⚡ 快速 - 几秒钟完成
  • ✅ 安全 - 不执行任何命令
  • 📄 基于文档 - 分析 SKILL.md 内容
  • 🔒 无风险 - 只读操作

适用场景:

  • 评估 Skill 文档质量
  • 快速筛选多个 Skills
  • 检查文档规范性
  • 上传前质量检查

评估内容:

  • ✅ Description 设计质量
  • ✅ 文档结构和完整性
  • ✅ 示例代码格式
  • ✅ 资源文件组织
  • ✅ 触发准确性设计

使用方式:

请测评 westock-data skill
请检查 tapd skill 的文档规范性
帮我评估 weather skill 的质量

评测维度

1. 触发准确性 (Trigger Accuracy) - 权重 30%

评估 Skill 的 description 字段是否能准确触发。

测试方法:

  • 分析 description 是否清晰完整
  • 检查是否包含关键触发词汇
  • 评估是否明确了与其他 Skills 的分工
  • 验证触发词是否容易误触发

评分标准:

  • ✅ 优秀 (90-100分): description 清晰全面,触发准确,无误触发风险
  • 🟡 良好 (70-89分): 大部分场景触发正确,少数边界情况不准确
  • 🟠 一般 (50-69分): 触发不稳定,description 需要改进
  • ❌ 较差 (低于50分): description 不清晰,容易误触发或不触发

常见问题:

  • Description 过于宽泛,容易误触发
  • 缺少明确的使用场景说明
  • 触发词与其他 Skills 冲突
  • 描述与实际功能不符

2. 文档质量 (Documentation Quality) - 权重 30%

评估 Skill 文档的清晰度、结构和可读性。

测试方法:

  • 检查文档结构是否合理(标题层级、章节组织)
  • 评估示例是否充分且实用
  • 验证是否遵循 OpenClaw Skill 规范
  • 检查格式是否统一(代码块、列表、表格)
  • 评估说明是否清晰易懂

评分标准:

  • ✅ 优秀 (90-100分): 文档结构清晰,示例丰富,遵循规范,易读性强
  • 🟡 良好 (70-89分): 文档基本清晰,示例充足,少量格式问题
  • 🟠 一般 (50-69分): 文档结构混乱或示例不足,可读性差
  • ❌ 较差 (低于50分): 文档不清晰,缺少关键信息,难以理解

检查清单:

  • 是否有清晰的概述章节
  • 是否包含使用示例
  • 是否说明了依赖项和环境要求
  • 是否有错误处理说明
  • 代码块是否有语法高亮标记
  • 表格格式是否规范

3. 执行完整性 (Execution Completeness) - 权重 25%

评估 Skill 的指令描述是否完整、清晰、可理解。

注意: 此维度仅评估文档层面的完整性,不实际执行代码。

测试方法:

  • 检查 SKILL.md 中的步骤是否完整
  • 验证示例代码格式是否正确
  • 检查是否包含必要的错误处理指引
  • 评估参数说明是否完整
  • 验证返回格式说明是否清晰

评分标准:

  • ✅ 优秀 (90-100分): 指令完整清晰,文档描述准确,步骤详细
  • 🟡 良好 (70-89分): 核心功能文档完整,部分细节需补充
  • 🟠 一般 (50-69分): 文档不完整或描述不清,缺少关键步骤
  • ❌ 较差 (低于50分): 指令不完整,缺少关键说明,无法理解

检查项目:

  • 是否说明了每个步骤的目的
  • 是否提供了完整的参数说明
  • 是否描述了预期的输出格式
  • 是否说明了可能的错误情况
  • 是否提供了故障排查指引

4. 资源组织 (Resource Organization) - 权重 15%

评估 scripts/references/assets 等资源文件的组织是否合理。

测试方法:

  • 检查文件目录结构是否符合规范
  • 验证资源文件是否正确引用
  • 评估是否遵循渐进式披露原则
  • 检查文件命名是否规范
  • 评估 references/ 目录的组织

评分标准:

  • ✅ 优秀 (90-100分): 目录结构清晰,资源引用正确,遵循最佳实践
  • 🟡 良好 (70-89分): 结构合理,少量组织问题
  • 🟠 一般 (50-69分): 结构混乱或资源引用不清晰
  • ❌ 较差 (低于50分): 严重违反规范,资源组织混乱

最佳实践:

skill-name/
├── SKILL.md              # 主文档,简洁清晰
├── references/           # 详细参考文档
│   ├── api-reference.md
│   └── examples.md
├── scripts/              # 辅助脚本(如有)
└── assets/               # 图片等资源

使用流程

第 1 步: 读取 Skill 内容

read /path/to/skill/SKILL.md

如果包含 references/ 或 scripts/ 目录,也需要读取:

ls /path/to/skill/references/
ls /path/to/skill/scripts/

第 2 步: 进行多维度评估

按照 4 个维度逐一评估,每个维度给出:

  • 评分(0-100)
  • 发现的问题
  • 改进建议

第 3 步: 生成测评报告

生成结构化的测评报告,包括:

  • 综合得分和评级
  • 各维度详细分析
  • 发现的问题清单
  • 具体改进建议

测评报告模板

生成的测评报告应遵循以下结构:

# Skill 测评报告: SKILL_NAME

**测评时间:** YYYY-MM-DD HH:MM
**测评模式:** 静态文档分析
**测评版本:** VERSION_IF_AVAILABLE  
**测评者:** OpenClaw SkillsBench Evaluator

---

## 📊 总体评分

**综合得分:** XX/100 ⭐⭐⭐⭐⭐

| 维度 | 得分 | 等级 | 权重 | 加权得分 |
|------|------|------|------|---------|
| 触发准确性 | XX/100 | ✅/🟡/🟠/❌ | 30% | XX.X |
| 文档质量 | XX/100 | ✅/🟡/🟠/❌ | 30% | XX.X |
| 执行完整性 | XX/100 | ✅/🟡/🟠/❌ | 25% | XX.X |
| 资源组织 | XX/100 | ✅/🟡/🟠/❌ | 15% | XX.X |

**评级:** ✅ 优秀 / 🟡 良好 / 🟠 一般 / ❌ 较差

---

## ✨ 优点

1. [列出 Skill 的优点]
2. ...

---

## ⚠️ 发现的问题

### 严重问题 (P0)
- [ ] [具体问题描述]

### 重要问题 (P1)
- [ ] [具体问题描述]

### 一般问题 (P2)
- [ ] [具体问题描述]

---

## 💡 改进建议

### 优先级 1 (立即修复)
1. [具体建议,包括修改位置和修改方法]

### 优先级 2 (短期优化)
1. [具体建议]

### 优先级 3 (长期改进)
1. [具体建议]

---

## 📝 详细分析

### 1. 触发准确性分析

**Description 内容:**

[当前的 description]


**分析:**
- [分析 description 的优缺点]
- [是否容易触发]
- [是否有误触发风险]

**改进建议:**
- [具体的改进建议]

---

### 2. 文档质量分析

**文档结构:**
- [分析文档的章节组织]
- [评估示例的充分性]
- [检查格式规范性]

**发现的问题:**
- [列出具体问题]

**改进建议:**
- [具体的改进建议]

---

### 3. 执行完整性分析

**指令完整性:**
- [分析步骤是否完整]
- [评估参数说明是否清晰]
- [检查错误处理说明]

**发现的问题:**
- [列出具体问题]

**改进建议:**
- [具体的改进建议]

---

### 4. 资源组织分析

**目录结构:**

[显示实际的目录结构]


**分析:**
- [评估目录组织是否合理]
- [检查文件命名规范]
- [验证资源引用正确性]

**改进建议:**
- [具体的改进建议]

---

## 🎯 总结

[总结性评价和核心建议]

**关键改进点:**
1. [最重要的改进建议]
2. [次重要的改进建议]
3. [其他建议]

---

**测评完成时间:** YYYY-MM-DD HH:MM  
**测评工具版本:** skillsbench-evaluator v3.0 (静态分析专版)

批量测评模式

当需要测评多个 Skill 时:

  1. 获取 Skills 列表:
ls ~/.openclaw/skills/
  1. 逐个测评并生成报告

  2. 生成对比报告:

# Skills 横向对比报告

| Skill Name | 综合得分 | 触发准确性 | 文档质量 | 执行完整性 | 资源组织 | 评级 |
|------------|---------|-----------|---------|-----------|---------|------|
| skill-a    | 92      | 95        | 90      | 90        | 92      | ✅ 优秀 |
| skill-b    | 78      | 75        | 80      | 75        | 82      | 🟡 良好 |
| skill-c    | 65      | 70        | 65      | 60        | 68      | 🟠 一般 |

**排名说明:**
- 排名基于综合得分
- 优先考虑文档质量和触发准确性
- 建议关注低于 70 分的 Skills

📋 开发者自测清单

在提交 Skill 到平台前,建议开发者自行完成以下检查:

文档质量

  • SKILL.md 包含清晰的概述
  • 提供了充分的使用示例
  • 说明了依赖项和环境要求
  • 包含错误处理说明
  • 代码块有正确的语法高亮标记
  • 表格格式规范

Description 设计

  • Description 清晰描述了功能
  • 包含了主要触发关键词
  • 明确了适用场景
  • 避免与其他 Skills 描述冲突
  • 长度适中(建议 100-300 字符)

文档完整性

  • 每个功能都有说明和示例
  • 参数说明完整
  • 返回格式说明清晰
  • 错误情况有说明
  • 提供了故障排查指引

资源组织

  • 目录结构符合规范
  • 文件命名规范
  • 资源引用路径正确
  • references/ 目录组织合理
  • 遵循渐进式披露原则

使用限制

为保证安全性,本 Skill 有以下限制:

  • 可以: 读取 SKILL.md 和 references/ 目录

  • 可以: 分析文档结构和内容

  • 可以: 生成测评报告

  • 可以: 提供改进建议

  • 不可以: 执行任何脚本或命令

  • 不可以: 访问网络

  • 不可以: 修改文件

  • 不可以: 实际运行测试


参考资料

详细的评测方法论和最佳实践,请参考:


注意事项

  1. 客观公正: 测评应基于具体事实和标准,避免主观臆断
  2. 建设性: 重点提供可操作的改进建议,而非仅仅批评
  3. 版本追踪: 建议在测评报告中记录 Skill 版本,便于追踪改进
  4. 迭代优化: 测评后应协助 Skill 作者进行改进和复测
  5. 安全第一: 本工具只进行静态分析,不执行任何代码,确保安全可靠

更新日志

v3.0 (2026-04-28) - 安全强化版

  • ✅ 移除动态测试功能,专注静态分析
  • ✅ 增强安全性,无代码执行风险
  • ✅ 优化评分维度权重
  • ✅ 增加开发者自测清单
  • ✅ 改进文档结构和可读性

v2.0 (历史版本)

  • 支持动态测试模式(已废弃,存在安全风险)

v1.0 (初始版本)

  • 基础静态文档分析功能