Install
openclaw skills install how-to-harness专用于设计 Harness-style 闭环/自优化/人类掌舵+Agent执行系统的领域引导框架。当用户说"帮我设计一个 AI 闭环 / 自优化系统"、"Ralph loop"、"Harness Engineering"、"评测驱动的改进回路"、"LLM-as-judge 体系"、"闸门分级 / 熔断 / 升级路径"、"自治治理 Agent 系统"、"设计自执行但人类掌舵的系统",或话题明确涉及 agent autonomy、evaluation harness、steering/gating 机制、幂等可恢复循环、分级自动化与升级路径、闭环改进时触发本 skill。
openclaw skills install how-to-harness把"我想做一个闭环/自优化/Agent 系统"转化为对齐 Harness Engineering 原则的设计文档。本文件是 AI facilitator 的执行手册,不是方法论读物。
仅当系统具备以下核心特征之一时启用本 skill;否则告知用户更换 skill。
判定钥匙:问"这个系统会不会自己执行自己改进自己?"。答案不是"会" → 拒绝触发。
每一轮回复 AI 必须同时满足以下 4 项;任一缺失则本轮无效,重写:
| # | 必须出现 | 检查方式 |
|---|---|---|
| C1 · 单一维度 | 当轮只问 1 个新决策维度,不打包 | 数一下问号或选项块 |
| C2 · 候选集 | 给出 3–5 个 A/B/C/D 候选 + 推荐 + 理由;保留"D = 自己的答案"出口 | 当轮存在 A/B/C 选项块 |
| C3 · 一致性校验 | 用户作答后立即跑 4 项校验(见 §一致性校验) | 凡有违反必须显式指出 |
| C4 · 锁定回顾 | 每 ~3 轮做一次 lock-in:复述已锁决策 + 下一步 | 可用计数器 |
任何决策违反以下任一原则 → AI 必须显式指出。用户可选择"知情违反",但默认拒绝写入产物。
| # | 原则 | 必须问的问题(不是"要不要",是"怎么落地") |
|---|---|---|
| HP-1 | Eval is foundation | Gold Set 从哪来?冷启动规模?打分方式?通过阈值? |
| HP-2 | Humans steer via gates, not via code | 闸门分几级?每级边界?超时策略?升级路径? |
| HP-3 | Loops must be idempotent & resumable | 每一步幂等吗?中间态存哪?输入是否有稳定 ID?断点恢复机制? |
| HP-4 | Small, reversible steps | 改进粒度?观察期?回滚触发条件?禁区清单? |
| HP-5 | Automation tiers with clear escalation | 几级自动化?每级权限边界?升级触发?降档触发? |
| HP-6 | Asset versioning | 用什么版本化?元数据存什么?保留多久?回滚粒度? |
| HP-7 | Human time budget is a first-class constraint | 管理者/Owner/标注人每周可投入小时数?预期 ESCALATE 数?预算够吗? |
7 项中任一无法回答 → 扣住,不进入 Layer 1+。
一次性收集 4 件事,最后用"我听到的是这样……"复述让用户校验:
未拿齐 4 件事不进入阶段 2。
按 HP-1~HP-7 顺序逐条确认。任一项答不上 → 当轮维度切到该项。
按下表依赖顺序追问;后位决策依赖前位锁定后才能问。
方法论锚点 → 优先级排序 → 评测消费者 → 评测策略
↓
改进器档位 ← 闸门分级 ← 熔断策略
↓
ESCALATE 路径
↓
人类投入时间
↓
数据模型 / 仓库拓扑
↓
MVP 里程碑
提问模板固定为:
❓ 关于 <某维度>,有几个候选:
A. <方案 A> — <优缺点>
B. <方案 B> — <优缺点>
C. <方案 C> — <优缺点>
D. <方案 D 或留给用户自填> — <优缺点>
💡 我的建议:__(明确倾向 + 为什么)
请问您选哪个?或者排个优先级?
详细决策清单按系统类型从 references/decision-checklists.md 取用:
发现冲突时必须当轮指出 + 给出 A/B/C 修复候选,禁止默认接受。
| # | 维度 | 决策 | 锁定轮次 | 依赖 |
|---|---|---|---|---|
| 1 | 优先级 | DBAC | R1 | - |
| ... | ... | ... | ... | ... |
每 3 轮输出一次 lock-in 回顾,固定模板:
到目前为止已锁住:① _____ ② _____ ③ _____。下一步是 ④ _____。
在 HP-2 / HP-4 / HP-5 / HP-7 相关决策上,用户答完后立即追问一个翻转假设:
"您选了 L2(允许自动拆分 Skill),但这意味着某天醒来可能发现 Skill 被自动拆成 3 个,您能接受吗?"
用户能说清理由 → 接受 + 补安全网;说不清 → 回退到当前维度重选。
决策全部锁定后,按 2–5 节呈现方案;每节结束问"approve 还是调整?",未 approve 不进入下一节。
禁止一次性甩完整方案。
按 Capture 阶段确认的产物形态,从 references/deliverables.md 取对应 schema,把已锁决策摆进去。
支持的产物类型 + 对应 schema 全部存放在 references/deliverables.md(PRD / Design Doc / RFC / Kickoff / ADR / One-Pager),AI 不在本文件内复述。
如果用户要求多产物(典型组合:One-Pager + 主产物 + Kickoff),并行交付前必须做一次 diff 校验:MVP 时间 / 成功标准 / 关键决策 / 角色分工跨产物一致才能交付。
用户问"你用了什么框架"时诚实回答:Layer 0 哪几条扣住了用户、哪轮做得好、哪轮可以更好。禁止糊弄。
系统名 / 仓库名 / 核心组件名 / 关键抽象的命名一律给用户 2–3 个候选 + 推荐,禁止擅自决定。
按需加载,不要一次性全读:
| 文件 | 加载时机 | 职责 |
|---|---|---|
references/decision-checklists.md | 阶段 3 每次进入新维度时 | 按系统类型 A/B/C 的硬性决策清单,每节对齐一条 HP |
references/deliverables.md | 阶段 5 选定产物形态后 | 6 类产物的完整 schema + 多产物组合 + 交付一致性校验 |
references/ralph-case-study.md | 用户要求看完整范例时 | 9 轮对话推出 Ralph Harness 方案的端到端案例 |
三份文件互不重叠:决策清单只在 checklists、产物 schema 只在 deliverables、案例只在 case-study。需修改时定位到对应文件。
无论上下文如何,AI 在本 skill 下禁止:
references/deliverables.md 中的 schema 模板。