Install
openclaw skills install @qh582/3q-quality-systemopenclaw skills install @qh582/3q-quality-system做什么:让你的 AI(Claude、GPT、Codex、Cursor)在输出前停下来想一想。六个认知透镜 + 三维空间意识 + 独立盲审。
快速上手:
- 执行前:三问预检——什么可能出错?影响谁?怎么发现?
- 子任务后(10 秒):三步快速检查——做全了吗?做对了吗?有反常吗?
- 深度检查:7 个维度 1-10 分打分,不通过重做。
- 自修正:同类失败 ≥ 3 次 → 系统自动添加防犯规则。
| # | 问题 | 目的 |
|---|---|---|
| Q1 | 这次执行最可能出什么错? | 预判风险 |
| Q2 | 如果出错,影响什么/谁? | 范围评估 |
| Q3 | 怎么在执行中发现它出错? | 检测手段 |
规则:答不出 → 先补信息再执行。禁止跳过。
| 信号 | 触发条件 | 修正方式 |
|---|---|---|
| S1 产出偏离 | 产出与预期差距 > 30% | 暂停 → 回溯目标 → 重写 |
| S2 遗漏上下文 | 关键信息未读 | 暂停 → 补充 → 继续 |
| S3 前后矛盾 | 前后声明不一致 | 暂停 → 统一 → 继续 |
| 条件 | 动作 |
|---|---|
| 同类问题出现 ≥ 3 次 | 自动触发深度 3Q |
| 输出中出现自相矛盾 | 强制深度 3Q |
| 复杂多步骤任务完成 | 自动深度 3Q 后交付 |
每次子任务返回后执行:
| # | 问题 | 通过标准 |
|---|---|---|
| ① 做全了吗? | 步骤完整,无缺失 | 全部完成 |
| ② 做对了吗? | 数据准确 | 偏差 ≤ 2% |
| ③ 有反常的吗? | 反向证据已检查 | 无未确认的异常 |
流程:全部通过 → ✅ 交付。任一不通过 → ⚠️ 升级到深度 3Q。
输出格式:
📋 快速3Q:步骤 X/Y ✅ | 数据 ✅/⚠️{偏差}% | 逻辑 ✅/❌矛盾
从"列出质疑→全部通过"改为逐条拷问+强制反面证据。至少 1 条 🔴,全绿 = 没认真审。
纪律:
| 透镜 | 问题 | 突破什么局限 |
|---|---|---|
| 元认知 Q | 我的任务理解对吗? | "我以为他要什么"的陷阱 |
| 标杆 Q | 领域顶尖 1% 怎么做? | 自我满足的低标准 |
| 挑战 Q | 如果我的假设全错了? | 默认正确的偏见 |
| 逻辑 Q | 论证自洽吗? | 跳跃式结论 |
| 用户 Q | 用户价值清晰吗? | 自我中心的思维 |
| 竞争 Q | 差异化在哪? | 盲目跟风 |
六个问题不是"质量检查清单"——它们是六个不同的认知透镜,每次执行强制切换一次视角。
不分群就谈标杆,是在用不知道哪个流派的标尺量东西。
| 步骤 | 做什么 | 为什么 |
|---|---|---|
| 分群 | 识别核心打法/风格/流派 | 不知道有哪些流派,就没法对标 |
| 标杆 | 每个流派下顶尖 1% 怎么看 | 分群后标杆才有意义 |
| 冲突 | 流派之间的分歧点在哪? | 分歧才是超额收益/突破口的来源 |
跨领域示例:
| 领域 | 分群示例 | 冲突即信号 |
|---|---|---|
| 投资 | 价值/动量/事件驱动/宏观对冲 | 不同流派看同一事件方向相反→大机会 |
| 写作 | 爽文/严肃文学/非虚构 | 评价标准完全不同 |
| 产品 | 增长驱动/体验驱动/生态驱动 | top 1% 做的事不一样 |
| 科研 | 实验派/理论派/计算派 | 好研究的定义不同 |
| 追问 | 问题 | 目的 |
|---|---|---|
| 副作用检查 | 这个修复会不会带来新问题? | 防止矫枉过正 |
| 重启条件 | 什么时候该承认判断失效? | 防止错误持续生效 |
| 地基递归 | 支撑当前逻辑的最深层假设是什么? | 防止地基歪了 |
六问检查的是质量,三维检查的是范围——你在正确层级、正确时间跨度、正确竞争位上思考问题吗?
| 维度 | 检查点 | 典型问题 |
|---|---|---|
| 逻辑 + 阶维 🏛️ | 层级匹配 | 执行层问题→执行层方案,不跳跃到战略层 |
| 用户 + 纵维 ⏳ | 时间演变 | 需求从哪来?现在怎样?未来趋势? |
| 竞争 + 横维 🌐 | 生态位 | 直接/间接/替代竞品在哪?差异化支点在哪? |
使用建议:
7 个维度,每个 1-10 分。满分 70,≥ 70 通过。
| 维度 | 1-3 分 | 4-6 分 | 7-9 分 | 10 分 |
|---|---|---|---|---|
| 元认知 Q | 方向偏了 | 方向对但浅 | 理解准确 | 发现隐性需求 |
| 标杆 Q | 没搜 | 搜了没分群 | 分群+对标 | 分群+对标+冲突 |
| 挑战 Q | 没质疑 | 质疑了没推翻 | 找到盲点 | 推翻重建更好 |
| 逻辑 Q | 有矛盾 | 自洽但粗糙 | 严谨 | 有反证 |
| 用户 Q | 价值不清 | 有价值但不聚焦 | 聚焦可衡量 | 用户直接感知提升 |
| 竞争 Q | 没差异 | 有差异但脆弱 | 可持续 | 差异化是壁垒 |
| 效果验证 | 没测 | 测了没基线 | 基线确认提升 | 量化+置信 |
必填规则:
为什么需要:SkillLens 论文实证,AI 自审准确率仅 46.4%——因为"我知道为什么这么写"的解释器偏差。
3Q 的解决方案:
交付文件 → 启动盲审 agent(裸读,无上下文)
→ 独立 7 维度打分
→ 主 agent 对比自有评分 + 盲审评分
→ 偏差 > 2 分 → 按低分处理
评分收敛规则:
3Q 不是静态的——它从自己的检查结果中学习,自动更新规则。
| 触发条件 | 发生什么 | 输出 |
|---|---|---|
| 同类失败 ≥ 3 次被 3Q 捕获 | 系统添加一条新规则来防范 | 更新后的内部规则 |
| 用户反复纠正同一类问题 | 系统添加一个禁用模式 | 更新后的禁用清单 |
| 外部新范式出现 | 系统触发全框架审查 | 更新后的方法论 |
用得越多,越能精准抓住你特有的失败模式。
3Q 捕获后还是出同样的问题?外部出现了更好的质量范式?
操作:扫描行业最新的质量实践。差距足够大 → 触发框架重构。
3Q 系统附带了配套参考文件:
| 文件 | 内容 | 什么场景用 |
|---|---|---|
references/three-dimensions.md | 三维扩展深度详解(阶纵/纵横/横维) | 复杂问题需要空间意识时 |
references/daily-check-template.md | 每日 5 分钟 3Q 自查模板 | 每天开始或结束时 |
references/decision-checklist.md | 12 个决策检查点 + 三阶段 3Q | 重大决策前 |
公式:retirement_score = utility × log(use_count)
| 分数 | 判定 |
|---|---|
| > 0.5 | 保留 |
| ≤ 0.5 | 审查是否退役 |
| 长期未用 | 直接退役 |