Install
openclaw skills install skill-ce-shiSkill 质量测评工具,基于 SkillsBench 方法论对 Agent Skills 进行静态文档分析。评估 Skill 的触发准确性、文档质量、结构完整性等维度。当用户需要 (1) 测评某个 Skill 的文档质量 (2) 评估 Skill 的 description 设计 (3) 生成 Skill 测评报告 (4) 对比多个 Skill 的文档规范性时使用此 skill。触发词:测评 评估 评测 文档检查 skill quality skill 评分 规范检查。
openclaw skills install skill-ce-shi本 Skill 仅进行静态文档分析,不执行任何代码,不访问网络,不修改文件系统。
所有测评基于 SKILL.md 文档内容,不涉及实际运行测试。
本 Skill 基于 SkillsBench 开源测评框架的方法论,为 OpenClaw 内网版提供专业的 Skill 质量评估能力。
核心价值:
特点:
适用场景:
评估内容:
使用方式:
请测评 westock-data skill
请检查 tapd skill 的文档规范性
帮我评估 weather skill 的质量
评估 Skill 的 description 字段是否能准确触发。
测试方法:
评分标准:
常见问题:
评估 Skill 文档的清晰度、结构和可读性。
测试方法:
评分标准:
检查清单:
评估 Skill 的指令描述是否完整、清晰、可理解。
注意: 此维度仅评估文档层面的完整性,不实际执行代码。
测试方法:
评分标准:
检查项目:
评估 scripts/references/assets 等资源文件的组织是否合理。
测试方法:
评分标准:
最佳实践:
skill-name/
├── SKILL.md # 主文档,简洁清晰
├── references/ # 详细参考文档
│ ├── api-reference.md
│ └── examples.md
├── scripts/ # 辅助脚本(如有)
└── assets/ # 图片等资源
read /path/to/skill/SKILL.md
如果包含 references/ 或 scripts/ 目录,也需要读取:
ls /path/to/skill/references/
ls /path/to/skill/scripts/
按照 4 个维度逐一评估,每个维度给出:
生成结构化的测评报告,包括:
生成的测评报告应遵循以下结构:
# Skill 测评报告: SKILL_NAME
**测评时间:** YYYY-MM-DD HH:MM
**测评模式:** 静态文档分析
**测评版本:** VERSION_IF_AVAILABLE
**测评者:** OpenClaw SkillsBench Evaluator
---
## 📊 总体评分
**综合得分:** XX/100 ⭐⭐⭐⭐⭐
| 维度 | 得分 | 等级 | 权重 | 加权得分 |
|------|------|------|------|---------|
| 触发准确性 | XX/100 | ✅/🟡/🟠/❌ | 30% | XX.X |
| 文档质量 | XX/100 | ✅/🟡/🟠/❌ | 30% | XX.X |
| 执行完整性 | XX/100 | ✅/🟡/🟠/❌ | 25% | XX.X |
| 资源组织 | XX/100 | ✅/🟡/🟠/❌ | 15% | XX.X |
**评级:** ✅ 优秀 / 🟡 良好 / 🟠 一般 / ❌ 较差
---
## ✨ 优点
1. [列出 Skill 的优点]
2. ...
---
## ⚠️ 发现的问题
### 严重问题 (P0)
- [ ] [具体问题描述]
### 重要问题 (P1)
- [ ] [具体问题描述]
### 一般问题 (P2)
- [ ] [具体问题描述]
---
## 💡 改进建议
### 优先级 1 (立即修复)
1. [具体建议,包括修改位置和修改方法]
### 优先级 2 (短期优化)
1. [具体建议]
### 优先级 3 (长期改进)
1. [具体建议]
---
## 📝 详细分析
### 1. 触发准确性分析
**Description 内容:**
[当前的 description]
**分析:**
- [分析 description 的优缺点]
- [是否容易触发]
- [是否有误触发风险]
**改进建议:**
- [具体的改进建议]
---
### 2. 文档质量分析
**文档结构:**
- [分析文档的章节组织]
- [评估示例的充分性]
- [检查格式规范性]
**发现的问题:**
- [列出具体问题]
**改进建议:**
- [具体的改进建议]
---
### 3. 执行完整性分析
**指令完整性:**
- [分析步骤是否完整]
- [评估参数说明是否清晰]
- [检查错误处理说明]
**发现的问题:**
- [列出具体问题]
**改进建议:**
- [具体的改进建议]
---
### 4. 资源组织分析
**目录结构:**
[显示实际的目录结构]
**分析:**
- [评估目录组织是否合理]
- [检查文件命名规范]
- [验证资源引用正确性]
**改进建议:**
- [具体的改进建议]
---
## 🎯 总结
[总结性评价和核心建议]
**关键改进点:**
1. [最重要的改进建议]
2. [次重要的改进建议]
3. [其他建议]
---
**测评完成时间:** YYYY-MM-DD HH:MM
**测评工具版本:** skillsbench-evaluator v3.0 (静态分析专版)
当需要测评多个 Skill 时:
ls ~/.openclaw/skills/
逐个测评并生成报告
生成对比报告:
# Skills 横向对比报告
| Skill Name | 综合得分 | 触发准确性 | 文档质量 | 执行完整性 | 资源组织 | 评级 |
|------------|---------|-----------|---------|-----------|---------|------|
| skill-a | 92 | 95 | 90 | 90 | 92 | ✅ 优秀 |
| skill-b | 78 | 75 | 80 | 75 | 82 | 🟡 良好 |
| skill-c | 65 | 70 | 65 | 60 | 68 | 🟠 一般 |
**排名说明:**
- 排名基于综合得分
- 优先考虑文档质量和触发准确性
- 建议关注低于 70 分的 Skills
在提交 Skill 到平台前,建议开发者自行完成以下检查:
为保证安全性,本 Skill 有以下限制:
✅ 可以: 读取 SKILL.md 和 references/ 目录
✅ 可以: 分析文档结构和内容
✅ 可以: 生成测评报告
✅ 可以: 提供改进建议
❌ 不可以: 执行任何脚本或命令
❌ 不可以: 访问网络
❌ 不可以: 修改文件
❌ 不可以: 实际运行测试
详细的评测方法论和最佳实践,请参考: