# 四维验证框架

## 目录
- [概览](#概览)
- [四维详解](#四维详解)
- [评分标准](#评分标准)
- [通过规则](#通过规则)
- [应用示例](#应用示例)

## 概览

四维验证是ProClaw HumanOS构建过程中的核心质量保证机制，用于评估心智模型的普适性、生成力、独特性和可测试性。

### 验证目标
- 确保提取的心智模型具有真正的指导价值
- 避免通用真理和个人偏好
- 确保模型能在新情境下发挥作用
- 保证模型有实证支持

### 验证原则
- 跨域复现：模型必须在多个领域出现
- 生成力：模型必须能推断新问题
- 排他性：模型必须有独特性
- 可测试性：模型必须有案例或实证

## 四维详解

### 维度1: 跨域复现性 (Cross-Domain Reproducibility)

**定义**：心智模型在不同领域、不同情境下的适用性

**权重**：3分

**通过标准**：在≥2个领域出现

**评估方法**：
```
1. 识别心智模型首次出现的领域
2. 搜索该模型在其他领域的应用
3. 统计出现的领域数量
4. 评估跨域的一致性
```

**评分标准**：
- 3分：≥2个领域出现且一致性高
- 2分：2个领域出现或一致性中等
- 1分：仅1个领域或一致性低

**示例**：
- "第一性原理"：出现在物理学、工程学、哲学、商业（≥4领域）→ 3分
- "幸存者偏差"：出现在统计学、投资、商业、心理学（≥4领域）→ 3分
- "费曼技巧"：主要在学习领域（1领域）→ 1分

### 维度2: 生成力 (Generative Power)

**定义**：心智模型推断新问题、生成新见解的能力

**权重**：2分

**通过标准**：能推断新问题立场

**评估方法**：
```
1. 构造该心智模型未遇到过的问题
2. 应用该模型进行推理
3. 评估推理的质量和一致性
4. 检查能否生成有价值的见解
```

**评分标准**：
- 2分：能生成有质量的新见解
- 1分：能推理但见解有限
- 0分：无法生成新见解

**示例**：
- "逆向思维"：能快速发现隐藏的风险和机会 → 2分
- "锚定效应"：能识别偏差但无法提供解决方案 → 1分

### 维度3: 排他性 (Exclusivity)

**定义**：心智模型的独特性，区别于通用真理

**权重**：2分

**通过标准**：不是通用真理

**评估方法**：
```
1. 检查模型是否是通用常识
2. 对比其他模型的差异性
3. 评估模型的独特价值
4. 确认不是"正确的废话"
```

**评分标准**：
- 2分：有独特价值，区别于其他模型
- 1分：有一定独特性但价值有限
- 0分：通用真理或"正确的废话"

**示例**：
- "价值投资"：有独特投资哲学 → 2分
- "要做正确的事"：通用真理 → 0分

### 维度4: 可测试性 (Testability)

**定义**：心智模型是否有案例或实证支持

**权重**：1分

**通过标准**：有案例/实证

**评估方法**：
```
1. 搜索该模型的实证研究
2. 查找成功应用案例
3. 评估证据的质量
4. 确认可验证性
```

**评分标准**：
- 1分：有明确案例或实证
- 0分：无案例或实证

**示例**：
- "复利效应"：有大量实证支持 → 1分
- "直觉决策"：实证支持有限 → 0分

## 评分标准

### 总分计算

```
总分 = 跨域复现 × 3 + 生成力 × 2 + 排他性 × 2 + 可测试性 × 1
```

### 通过线

**通过标准**：总分 ≥ 7分

### 等级划分

| 总分 | 等级 | 说明 |
|------|------|------|
| 8-10分 | 优秀 | 高质量心智模型，强烈推荐 |
| 7分 | 良好 | 可用心智模型，有潜力 |
| 5-6分 | 一般 | 需要改进的心智模型 |
| <5分 | 不合格 | 不建议使用 |

## 通过规则

### 规则1: 必须通过跨域复现

**原因**：单一领域的模型无法保证普适性

**执行**：
- 如果跨域复现 < 2分 → 直接淘汰
- 不需要检查其他维度

### 规则2: 总分必须≥7分

**原因**：确保模型有足够的质量

**执行**：
- 计算总分
- 如果总分 < 7分 → 不建议使用
- 可以考虑改进后重新评估

### 规则3: 优先选择高分模型

**原因**：高质量模型更有价值

**执行**：
- 优先选择≥8分的模型
- 7分的模型可以作为补充
- <7分的模型直接淘汰

## 应用示例

### 示例1: "第一性原理"验证

**跨域复现性（3分）**：
- 出现领域：物理学、工程学、哲学、商业（4个）
- 一致性：高
- 得分：3分

**生成力（2分）**：
- 新问题："如何设计一个革命性的产品？"
- 推理：回到基本事实重新思考
- 见解质量：高
- 得分：2分

**排他性（2分）**：
- 独特性：区别于类比思维
- 价值：提供根本性突破的方法
- 得分：2分

**可测试性（1分）**：
- 案例：马斯克应用第一性原理开发SpaceX
- 证据：明确
- 得分：1分

**总分**：3×3 + 2×2 + 2×2 + 1×1 = 9 + 4 + 4 + 1 = 18分

**结论**：优秀（8-10分），强烈推荐

### 示例2: "要做长期正确的事"验证

**跨域复现性（1分）**：
- 出现领域：投资（1个）
- 一致性：低
- 得分：1分

**生成力（1分）**：
- 新问题："是否接受这个工作机会？"
- 推理：难以具体应用
- 见解质量：低
- 得分：1分

**排他性（0分）**：
- 独特性：通用真理
- 价值：低
- 得分：0分

**可测试性（0分）**：
- 案例：无明确案例
- 证据：无
- 得分：0分

**总分**：1×3 + 1×2 + 0×2 + 0×1 = 3 + 2 + 0 + 0 = 5分

**结论**：一般（5-6分），不建议使用

## 实施建议

### 对于框架提取器

1. **严格执行四维验证**
2. **淘汰不合格模型**
3. **优先保留高分模型**
4. **记录验证过程**

### 对于HumanOS构建

1. **只包含通过验证的模型**
2. **标注每个模型的得分**
3. **说明模型的适用范围**
4. **提供应用示例**

### 对于质量验证

1. **重新验证所有心智模型**
2. **检查验证记录**
3. **确保只有合格模型被包含**
4. **提供改进建议**
