skill测试

Skill 质量测评工具，基于 SkillsBench 方法论对 Agent Skills 进行静态文档分析。评估 Skill 的触发准确性、文档质量、结构完整性等维度。当用户需要 (1) 测评某个 Skill 的文档质量 (2) 评估 Skill 的 description 设计 (3) 生成 Skill 测评报告 (4) 对比多个 Skill 的文档规范性时使用此 skill。触发词：测评评估评测文档检查 skill quality skill 评分规范检查。

Audits

Pending

ClawScanReview

Agentic behavior and permission review.

Static analysisPass

Pattern checks against bundled files.

VirusTotalPending

Multi-engine malware detections and file reputation.

Install

openclaw skills install skill-ce-shi

SkillsBench Evaluator - Skill 质量测评工具

⚠️ 安全说明

本 Skill 仅进行静态文档分析，不执行任何代码，不访问网络，不修改文件系统。

所有测评基于 SKILL.md 文档内容，不涉及实际运行测试。

概述

本 Skill 基于 SkillsBench 开源测评框架的方法论，为 OpenClaw 内网版提供专业的 Skill 质量评估能力。

核心价值:

🎯 全面评估: 覆盖触发准确性、文档质量、结构完整性等多维度
📊 量化指标: 提供可量化的评分和改进建议
📄 安全可靠: 纯静态分析，无代码执行风险
🔄 迭代优化: 帮助 Skill 作者持续改进文档质量

测评模式：静态文档分析

特点:

⚡ 快速 - 几秒钟完成
✅ 安全 - 不执行任何命令
📄 基于文档 - 分析 SKILL.md 内容
🔒 无风险 - 只读操作

适用场景:

评估 Skill 文档质量
快速筛选多个 Skills
检查文档规范性
上传前质量检查

评估内容:

✅ Description 设计质量
✅ 文档结构和完整性
✅ 示例代码格式
✅ 资源文件组织
✅ 触发准确性设计

使用方式:

请测评 westock-data skill
请检查 tapd skill 的文档规范性
帮我评估 weather skill 的质量

评测维度

1. 触发准确性 (Trigger Accuracy) - 权重 30%

评估 Skill 的 description 字段是否能准确触发。

测试方法:

分析 description 是否清晰完整
检查是否包含关键触发词汇
评估是否明确了与其他 Skills 的分工
验证触发词是否容易误触发

评分标准:

✅ 优秀 (90-100分): description 清晰全面，触发准确，无误触发风险
🟡 良好 (70-89分): 大部分场景触发正确，少数边界情况不准确
🟠 一般 (50-69分): 触发不稳定，description 需要改进
❌ 较差 (低于50分): description 不清晰，容易误触发或不触发

常见问题:

Description 过于宽泛，容易误触发
缺少明确的使用场景说明
触发词与其他 Skills 冲突
描述与实际功能不符

2. 文档质量 (Documentation Quality) - 权重 30%

评估 Skill 文档的清晰度、结构和可读性。

测试方法:

检查文档结构是否合理（标题层级、章节组织）
评估示例是否充分且实用
验证是否遵循 OpenClaw Skill 规范
检查格式是否统一（代码块、列表、表格）
评估说明是否清晰易懂

评分标准:

✅ 优秀 (90-100分): 文档结构清晰，示例丰富，遵循规范，易读性强
🟡 良好 (70-89分): 文档基本清晰，示例充足，少量格式问题
🟠 一般 (50-69分): 文档结构混乱或示例不足，可读性差
❌ 较差 (低于50分): 文档不清晰，缺少关键信息，难以理解

检查清单:

是否有清晰的概述章节
是否包含使用示例
是否说明了依赖项和环境要求
是否有错误处理说明
代码块是否有语法高亮标记
表格格式是否规范

3. 执行完整性 (Execution Completeness) - 权重 25%

评估 Skill 的指令描述是否完整、清晰、可理解。

注意: 此维度仅评估文档层面的完整性，不实际执行代码。

测试方法:

检查 SKILL.md 中的步骤是否完整
验证示例代码格式是否正确
检查是否包含必要的错误处理指引
评估参数说明是否完整
验证返回格式说明是否清晰

评分标准:

✅ 优秀 (90-100分): 指令完整清晰，文档描述准确，步骤详细
🟡 良好 (70-89分): 核心功能文档完整，部分细节需补充
🟠 一般 (50-69分): 文档不完整或描述不清，缺少关键步骤
❌ 较差 (低于50分): 指令不完整，缺少关键说明，无法理解

检查项目:

是否说明了每个步骤的目的
是否提供了完整的参数说明
是否描述了预期的输出格式
是否说明了可能的错误情况
是否提供了故障排查指引

4. 资源组织 (Resource Organization) - 权重 15%

评估 scripts/references/assets 等资源文件的组织是否合理。

测试方法:

检查文件目录结构是否符合规范
验证资源文件是否正确引用
评估是否遵循渐进式披露原则
检查文件命名是否规范
评估 references/ 目录的组织

评分标准:

✅ 优秀 (90-100分): 目录结构清晰，资源引用正确，遵循最佳实践
🟡 良好 (70-89分): 结构合理，少量组织问题
🟠 一般 (50-69分): 结构混乱或资源引用不清晰
❌ 较差 (低于50分): 严重违反规范，资源组织混乱

最佳实践:

skill-name/
├── SKILL.md              # 主文档，简洁清晰
├── references/           # 详细参考文档
│   ├── api-reference.md
│   └── examples.md
├── scripts/              # 辅助脚本（如有）
└── assets/               # 图片等资源

使用流程

第 1 步: 读取 Skill 内容

read /path/to/skill/SKILL.md

如果包含 references/ 或 scripts/ 目录，也需要读取：

ls /path/to/skill/references/
ls /path/to/skill/scripts/

第 2 步: 进行多维度评估

按照 4 个维度逐一评估，每个维度给出：

评分（0-100）
发现的问题
改进建议

第 3 步: 生成测评报告

生成结构化的测评报告，包括：

综合得分和评级
各维度详细分析
发现的问题清单
具体改进建议

测评报告模板

生成的测评报告应遵循以下结构：

# Skill 测评报告: SKILL_NAME

**测评时间:** YYYY-MM-DD HH:MM
**测评模式:** 静态文档分析
**测评版本:** VERSION_IF_AVAILABLE  
**测评者:** OpenClaw SkillsBench Evaluator

---

## 📊 总体评分

**综合得分:** XX/100 ⭐⭐⭐⭐⭐

| 维度 | 得分 | 等级 | 权重 | 加权得分 |
|------|------|------|------|---------|
| 触发准确性 | XX/100 | ✅/🟡/🟠/❌ | 30% | XX.X |
| 文档质量 | XX/100 | ✅/🟡/🟠/❌ | 30% | XX.X |
| 执行完整性 | XX/100 | ✅/🟡/🟠/❌ | 25% | XX.X |
| 资源组织 | XX/100 | ✅/🟡/🟠/❌ | 15% | XX.X |

**评级:** ✅ 优秀 / 🟡 良好 / 🟠 一般 / ❌ 较差

---

## ✨ 优点

1. [列出 Skill 的优点]
2. ...

---

## ⚠️ 发现的问题

### 严重问题 (P0)
- [ ] [具体问题描述]

### 重要问题 (P1)
- [ ] [具体问题描述]

### 一般问题 (P2)
- [ ] [具体问题描述]

---

## 💡 改进建议

### 优先级 1 (立即修复)
1. [具体建议，包括修改位置和修改方法]

### 优先级 2 (短期优化)
1. [具体建议]

### 优先级 3 (长期改进)
1. [具体建议]

---

## 📝 详细分析

### 1. 触发准确性分析

**Description 内容:**

[当前的 description]


**分析:**
- [分析 description 的优缺点]
- [是否容易触发]
- [是否有误触发风险]

**改进建议:**
- [具体的改进建议]

---

### 2. 文档质量分析

**文档结构:**
- [分析文档的章节组织]
- [评估示例的充分性]
- [检查格式规范性]

**发现的问题:**
- [列出具体问题]

**改进建议:**
- [具体的改进建议]

---

### 3. 执行完整性分析

**指令完整性:**
- [分析步骤是否完整]
- [评估参数说明是否清晰]
- [检查错误处理说明]

**发现的问题:**
- [列出具体问题]

**改进建议:**
- [具体的改进建议]

---

### 4. 资源组织分析

**目录结构:**

[显示实际的目录结构]


**分析:**
- [评估目录组织是否合理]
- [检查文件命名规范]
- [验证资源引用正确性]

**改进建议:**
- [具体的改进建议]

---

## 🎯 总结

[总结性评价和核心建议]

**关键改进点:**
1. [最重要的改进建议]
2. [次重要的改进建议]
3. [其他建议]

---

**测评完成时间:** YYYY-MM-DD HH:MM  
**测评工具版本:** skillsbench-evaluator v3.0 (静态分析专版)

批量测评模式

当需要测评多个 Skill 时：

获取 Skills 列表：

ls ~/.openclaw/skills/

逐个测评并生成报告
生成对比报告：

# Skills 横向对比报告

| Skill Name | 综合得分 | 触发准确性 | 文档质量 | 执行完整性 | 资源组织 | 评级 |
|------------|---------|-----------|---------|-----------|---------|------|
| skill-a    | 92      | 95        | 90      | 90        | 92      | ✅ 优秀 |
| skill-b    | 78      | 75        | 80      | 75        | 82      | 🟡 良好 |
| skill-c    | 65      | 70        | 65      | 60        | 68      | 🟠 一般 |

**排名说明:**
- 排名基于综合得分
- 优先考虑文档质量和触发准确性
- 建议关注低于 70 分的 Skills

📋 开发者自测清单

在提交 Skill 到平台前，建议开发者自行完成以下检查：

文档质量

SKILL.md 包含清晰的概述
提供了充分的使用示例
说明了依赖项和环境要求
包含错误处理说明
代码块有正确的语法高亮标记
表格格式规范

Description 设计

Description 清晰描述了功能
包含了主要触发关键词
明确了适用场景
避免与其他 Skills 描述冲突
长度适中（建议 100-300 字符）

文档完整性

资源组织

使用限制

为保证安全性，本 Skill 有以下限制：

✅ 可以: 读取 SKILL.md 和 references/ 目录
✅ 可以: 分析文档结构和内容
✅ 可以: 生成测评报告
✅ 可以: 提供改进建议
❌ 不可以: 执行任何脚本或命令
❌ 不可以: 访问网络
❌ 不可以: 修改文件
❌ 不可以: 实际运行测试

参考资料

详细的评测方法论和最佳实践，请参考：

SkillsBench 官方网站
SkillsBench 论文
SkillsBench GitHub
references/evaluation-guidelines.md - 详细评测指南

注意事项

客观公正: 测评应基于具体事实和标准，避免主观臆断
建设性: 重点提供可操作的改进建议，而非仅仅批评
版本追踪: 建议在测评报告中记录 Skill 版本，便于追踪改进
迭代优化: 测评后应协助 Skill 作者进行改进和复测
安全第一: 本工具只进行静态分析，不执行任何代码，确保安全可靠

更新日志

v3.0 (2026-04-28) - 安全强化版

✅ 移除动态测试功能，专注静态分析
✅ 增强安全性，无代码执行风险
✅ 优化评分维度权重
✅ 增加开发者自测清单
✅ 改进文档结构和可读性

v2.0 (历史版本)

支持动态测试模式（已废弃，存在安全风险）

v1.0 (初始版本)

基础静态文档分析功能