Install
openclaw skills install agent-eval基于Karpathy AutoResearch和多Agent复盘的闭环量化评估体系,实现任务自动yes/no评判与持续优化升级。
openclaw skills install agent-eval核心理念:能被衡量的东西,就能被优化。 基于 Karpathy AutoResearch eval loop + 诸子 Agent 复盘体系 + Phoenix Memory 架构
生成 → 评估 → 打分 → 分析失败点 → 改一个小地方 → 重跑 → 分数涨了保留,跌了撤回 → 循环
| # | 检查项 | 权重 | 说明 |
|---|---|---|---|
| C1 | 格式规范:标题编号/字号/行距是否符合公文或论文标准 | 高 | 对照GB/T 9704或目标期刊 |
| C2 | 无 AI 痕迹:正文中是否出现"作为AI"/"笔者"/"综上所述"等AI常见用语 | 高 | 全文检索 |
| C3 | 数据真实:所有数字、百分比是否来自可验证来源(非估算) | 极高 | 对应 PAT-20260403-001/002 |
| C4 | 角色准确:文种是否匹配(通知/报告/请示/论文各有套路) | 高 | 文体识别 |
| C5 | 一稿可用率:是否无需老板大幅修改即可使用 | 高 | 历史对比 |
| # | 检查项 | 权重 | 说明 |
|---|---|---|---|
| S1 | 高风险条款标记:是否标注了所有🟡🟠🔴风险条款 | 极高 | 质7条/保8条等红线 |
| S2 | 法律依据:每条审查意见是否引用具体法条/规章 | 高 | 不能空口白说 |
| S3 | 可操作性:是否给出具体修改建议(而非只说"有风险") | 高 | 对方能拿去直接改 |
| S4 | 遗漏检查:是否有重要条款被遗漏(付款/违约/终止/保密) | 高 | 对照检查清单 |
| S5 | 医院适配:是否考虑了公立医院特殊条款(财政审计/采购流程) | 中 | 行业定制 |
5阶段 Peer-Review 流程 + 偏差检测框架(蒸馏自 K-Dense ScholarEval)
评审流程:
偏差检测清单(必须覆盖):
| # | 检查项 | 权重 | 说明 |
|---|---|---|---|
| D1 | 找出真实问题:是否至少指出1个非显而易见的实质性缺陷 | 极高 | 不能只挑格式 |
| D2 | 论据充分:每个批评是否有具体论据/数据/文献支撑 | 高 | 不能空穴来风 |
| D3 | 偏差检测:是否覆盖5类偏差中的至少2类 | 高 | 蒸馏自K-Dense |
| D4 | 统计审评:是否检查了效应量、多重比较、样本量 | 高 | 蒸馏自K-Dense |
| D5 | 不误伤:是否没有对正确内容进行无理挑刺 | 中 | 避免为了挑刺而挑刺 |
| D6 | 可执行建议:是否给出改进方向(而非只否定) | 高 | 建设性挑刺 |
| # | 检查项 | 权重 | 说明 |
|---|---|---|---|
| SG1 | 出处准确:引文是否标注真实出处(书名/卷/篇) | 极高 | 不能编造古籍 |
| SG2 | 语境匹配:引用是否与论述主题相关(非生搬硬套) | 高 | 语义关联 |
| SG3 | 现代转化:是否能将古文用现代语言清晰解释 | 高 | 翻译质量 |
| SG4 | 深度:是否提供了超越浅层引用的深入解读 | 中 | 非百度百科式 |
8维度评分框架(蒸馏自 K-Dense ScholarEval)
8维度: 问题定义 | 文献综述 | 方法论 | 数据来源 | 分析解读 | 结果呈现 | 学术写作 | 引用规范
| # | 检查项 | 权重 | 说明 |
|---|---|---|---|
| SC1 | 引用真实:所有引用文献是否真实存在(DOI/arXiv ID可验证) | 极高 | 反AI幻觉核心 |
| SC2 | 相关性:检索结果与课题的相关度(前5条中至少3条高度相关) | 高 | |
| SC3 | 时效性:引用文献是否以近3年为主(经典文献除外) | 中 | |
| SC4 | 完整性:是否覆盖了课题的主要子领域 | 高 | 不能只搜一个方向 |
| SC5 | 批判性:文献综述是否区分了'总结'和'批判'(非罗列) | 高 | K-Dense ScholarEval |
| SC6 | 方法论审评:对引用文献的方法论质量是否有评估 | 中 | K-Dense ScholarEval |
| # | 检查项 | 权重 | 说明 |
|---|---|---|---|
| A1 | 数据源标注:是否明确标注数据来源和时间 | 极高 | 对应 PAT-20260403 |
| A2 | 计算可复现:关键数字是否能从原始数据手算验证 | 高 | 不臆想 |
| A3 | 方法说明:是否说明了分析方法(描述统计/回归/卡方等) | 高 | |
| A4 | 局限性:是否指出了数据的局限和适用范围 | 中 | 诚实原则 |
GRADE 证据分级 + 偏差检测(蒸馏自 K-Dense CDS + Critical-Thinking)
GRADE 分级: 1A(强推荐+高质量)→ 1B → 2A → 2B → 2C(弱推荐+极低质量)
| # | 检查项 | 权重 | 说明 |
|---|---|---|---|
| M1 | 政策依据:是否引用最新的国家/省级政策文件 | 高 | 互联网医院政策变化快 |
| M2 | 数据时效:引用的医院/行业数据是否在时效红线内 | 极高 | IMA 红线 |
| M3 | 临床相关性:建议是否有临床/管理实践支撑 | 高 | |
| M4 | 证据分级:是否对关键建议标注了GRADE等级(或注明证据强度) | 高 | K-Dense CDS |
| M5 | 偏差意识:是否指出引用研究中的潜在偏差(选择/测量/混杂) | 中 | K-Dense Critical-Thinking |
总分 = Σ(通过项权重) / Σ(所有项权重) × 100
等级:
90+ = 🟢 优秀(可自动交付)
70-89 = 🟡 良好(需抽查)
50-69 = 🟠 需改进(必须人工审)
<50 = 🔴 不合格(重新执行)
memory/evolution/<agent-id>.md| 现有组件 | Eval 衔接方式 |
|---|---|
| Phoenix Memory L0 | 每日日志已包含任务记录,eval 直接读取 |
| patterns.md | eval 失败模式自动写入 PAT |
| 五层质检 | eval 是 L2-L3 层的量化标准 |
| AGENTS.md autoresearch | eval 分数就是 autoresearch 的 loss function |
| 心跳 HEARTBEAT.md | 周日 eval 周报纳入心跳检查 |
memory/evolution/<agent-id>.md:
# <Agent 名称> 进化日志
## 2026-04-04
- 日均任务数: 3
- Eval 均分: 78/100 🟡
- 通过项: C1✅ C2✅ C3❌ C4✅ C5🟡
- 失败分析: C3 数据真实度不达标(2/3任务使用了估算数据)
- 改进措施: 在 spawn 指令中强调"所有数字必须标注来源"