3Q-quality-system

提供基于13问三层结构与自动触发的元认知质量保障，支持文档、代码、决策等多场景质量检查与管控。

Install

openclaw skills install @qh582/3q-quality-system

3Q 质量系统 — 突破 AI 的自我视角局限

做什么：让你的 AI（Claude、GPT、Codex、Cursor）在输出前停下来想一想。六个认知透镜 + 三维空间意识 + 独立盲审。

快速上手：

执行前：三问预检——什么可能出错？影响谁？怎么发现？

子任务后（10 秒）：三步快速检查——做全了吗？做对了吗？有反常吗？

深度检查：7 个维度 1-10 分打分，不通过重做。

自修正：同类失败 ≥ 3 次 → 系统自动添加防犯规则。

Layer 0：预审 + 实时护栏

执行前三问

#	问题	目的
Q1	这次执行最可能出什么错？	预判风险
Q2	如果出错，影响什么/谁？	范围评估
Q3	怎么在执行中发现它出错？	检测手段

规则：答不出 → 先补信息再执行。禁止跳过。

事中修正三信号

信号	触发条件	修正方式
S1 产出偏离	产出与预期差距 > 30%	暂停 → 回溯目标 → 重写
S2 遗漏上下文	关键信息未读	暂停 → 补充 → 继续
S3 前后矛盾	前后声明不一致	暂停 → 统一 → 继续

自动触发（直接升级到深度 3Q）

条件	动作
同类问题出现 ≥ 3 次	自动触发深度 3Q
输出中出现自相矛盾	强制深度 3Q
复杂多步骤任务完成	自动深度 3Q 后交付

Layer 0.5：快速 3Q（10 秒）

每次子任务返回后执行：

#	问题	通过标准
① 做全了吗？	步骤完整，无缺失	全部完成
② 做对了吗？	数据准确	偏差 ≤ 2%
③ 有反常的吗？	反向证据已检查	无未确认的异常

流程：全部通过 → ✅ 交付。任一不通过 → ⚠️ 升级到深度 3Q。

输出格式：

text

📋 快速3Q：步骤 X/Y ✅ | 数据 ✅/⚠️{偏差}% | 逻辑 ✅/❌矛盾

Grill 模式（挑战 Q 不走过场）

从"列出质疑→全部通过"改为逐条拷问+强制反面证据。至少 1 条 🔴，全绿 = 没认真审。

纪律：

每个"通"必须配一个"不通会怎样"
🔴 标红的维度必须先处理再继续

Layer 1：六个认知透镜

透镜	问题	突破什么局限
元认知 Q	我的任务理解对吗？	"我以为他要什么"的陷阱
标杆 Q	领域顶尖 1% 怎么做？	自我满足的低标准
挑战 Q	如果我的假设全错了？	默认正确的偏见
逻辑 Q	论证自洽吗？	跳跃式结论
用户 Q	用户价值清晰吗？	自我中心的思维
竞争 Q	差异化在哪？	盲目跟风

六个问题不是"质量检查清单"——它们是六个不同的认知透镜，每次执行强制切换一次视角。

标杆 Q 前置步骤：分群

不分群就谈标杆，是在用不知道哪个流派的标尺量东西。

步骤	做什么	为什么
分群	识别核心打法/风格/流派	不知道有哪些流派，就没法对标
标杆	每个流派下顶尖 1% 怎么看	分群后标杆才有意义
冲突	流派之间的分歧点在哪？	分歧才是超额收益/突破口的来源

跨领域示例：

领域	分群示例	冲突即信号
投资	价值/动量/事件驱动/宏观对冲	不同流派看同一事件方向相反→大机会
写作	爽文/严肃文学/非虚构	评价标准完全不同
产品	增长驱动/体验驱动/生态驱动	top 1% 做的事不一样
科研	实验派/理论派/计算派	好研究的定义不同

三追问（深度检查）

追问	问题	目的
副作用检查	这个修复会不会带来新问题？	防止矫枉过正
重启条件	什么时候该承认判断失效？	防止错误持续生效
地基递归	支撑当前逻辑的最深层假设是什么？	防止地基歪了

三维扩展

六问检查的是质量，三维检查的是范围——你在正确层级、正确时间跨度、正确竞争位上思考问题吗？

维度	检查点	典型问题
逻辑 + 阶维 🏛️	层级匹配	执行层问题→执行层方案，不跳跃到战略层
用户 + 纵维 ⏳	时间演变	需求从哪来？现在怎样？未来趋势？
竞争 + 横维 🌐	生态位	直接/间接/替代竞品在哪？差异化支点在哪？

使用建议：

日常检查：六问
深度分析：六问 + 三追问
重大决策：六问 + 三维 + 三追问 + 盲审

量化评分体系

7 个维度，每个 1-10 分。满分 70，≥ 70 通过。

维度	1-3 分	4-6 分	7-9 分	10 分
元认知 Q	方向偏了	方向对但浅	理解准确	发现隐性需求
标杆 Q	没搜	搜了没分群	分群+对标	分群+对标+冲突
挑战 Q	没质疑	质疑了没推翻	找到盲点	推翻重建更好
逻辑 Q	有矛盾	自洽但粗糙	严谨	有反证
用户 Q	价值不清	有价值但不聚焦	聚焦可衡量	用户直接感知提升
竞争 Q	没差异	有差异但脆弱	可持续	差异化是壁垒
效果验证	没测	测了没基线	基线确认提升	量化+置信

必填规则：

每次深度 3Q 必须打分，无分数 = 无效审查
效果验证必须跑 A/B 测试（有 skill vs 无 skill）
总分 ≤ 60 → 驳回；61-69 → 盲审验证后决定

独立盲审

为什么需要：SkillLens 论文实证，AI 自审准确率仅 46.4%——因为"我知道为什么这么写"的解释器偏差。

3Q 的解决方案：

text

交付文件 → 启动盲审 agent（裸读，无上下文）
         → 独立 7 维度打分
         → 主 agent 对比自有评分 + 盲审评分
         → 偏差 > 2 分 → 按低分处理

评分收敛规则：

盲审分 ≈ 主 agent 分（偏差 ≤ 1）→ ✅ 已收敛
盲审分明显更低（偏差 > 2）→ ⚠️ 强制审查该维度，按低分处理
盲审分明显更高 → 🟡 检查盲审是否遗漏问题

自修正（从错误中学习）

3Q 不是静态的——它从自己的检查结果中学习，自动更新规则。

触发条件	发生什么	输出
同类失败 ≥ 3 次被 3Q 捕获	系统添加一条新规则来防范	更新后的内部规则
用户反复纠正同一类问题	系统添加一个禁用模式	更新后的禁用清单
外部新范式出现	系统触发全框架审查	更新后的方法论

用得越多，越能精准抓住你特有的失败模式。

Meta-3Q：质疑框架本身

3Q 捕获后还是出同样的问题？外部出现了更好的质量范式？

操作：扫描行业最新的质量实践。差距足够大 → 触发框架重构。

首次使用：装好后做什么

说 "用 3Q 检查一下你上次生成的内容" — 看它实际怎么工作
说 "开始下一个任务之前，先做一个预检" — 养成习惯
用 3-5 次后回顾："3Q 捕获了哪些失败？它漏掉了什么？"
每日练习用 日检模板
重大决策用 决策检查清单

延伸阅读

3Q 系统附带了配套参考文件：

文件	内容	什么场景用
`references/three-dimensions.md`	三维扩展深度详解（阶纵/纵横/横维）	复杂问题需要空间意识时
`references/daily-check-template.md`	每日 5 分钟 3Q 自查模板	每天开始或结束时
`references/decision-checklist.md`	12 个决策检查点 + 三阶段 3Q	重大决策前

技能淘汰

公式：retirement_score = utility × log(use_count)

分数	判定
> 0.5	保留
≤ 0.5	审查是否退役
长期未用	直接退役