# MDT 会诊 Eval 评估标准

## 评估对象

评估 MDT 会诊的综合输出报告质量，确保每次会诊都有实质价值。

---

## 📋 Eval Checklist（共6条，二元判断）

### E1: 分科完整度
**"报告是否包含了所有应参与科室的独立意见？"**
- yes：每个应参与的科室都有独立的结论/分析段落
- no：有科室缺失，或只有汇总没有分科意见
- 为什么重要：MDT的核心价值是多角度，缺科=缺视角

### E2: 分歧处理
**"当不同科室意见不一致时，报告是否明确标注了分歧并给出主持人判断？"**
- yes：分歧点清晰列出 + 主持人给出了倾向性判断及理由
- no：有分歧但被忽略/掩盖，或只有"大家各有看法"没有判断
- 为什么重要：分歧不处理=会诊白做，最终需要有决策

### E3: 风险标注
**"报告中的风险点是否都有明确的风险等级标注（🔴高风险/🟡中风险/🟢低风险）？"**
- yes：每个识别出的风险都有等级
- no：提到了风险但没有分级，或完全没有风险分析
- 为什么重要：领导需要一眼看到最严重的问题

### E4: 行动建议
**"报告是否给出了至少2条具体的、可执行的行动建议（不是笼统的'建议注意'）？"**
- yes：建议包含具体操作（如"将违约金从日万分之八调整为万分之五"）
- no：只有空泛建议（如"建议加强管理""建议注意风险"）
- 为什么重要：会诊的目的是指导行动，不是制造焦虑

### E5: 结构化输出
**"报告是否使用了标准化的分节格式（会诊概要→分科意见→综合研判→行动建议→会诊签名），且三个科室使用了统一的格式模板？"**
- yes：各科室按各自标准模板输出（Shield表格、Law逐条+汇总表、Devil分级报告）
- no：格式混乱、信息堆砌、找不到重点
- 为什么重要：领导时间宝贵，3秒内要能看到关键信息

### E6: Devil 风险覆盖率
**"如果 Devil 参与了会诊，报告是否逐条回应了 Devil 提出的每一个风险点？"**
- yes：Devil 的每个风险点都有回应（接受/部分接受/驳回+理由）
- no：Devil 的意见被忽视，或只有选择性回应
- 为什么重要：Devil 是质控核心，无视他就等于没有质控

---

## 🎯 评分规则

```
满分 6 分 = 6条全部 pass

评分等级：
  6/6 = 🏆 优秀（可作为模板范例）
  5/6 = ✅ 良好（个别小问题）
  4/6 = ⚠️ 及格（有明显短板）
  3/6 = ❌ 不合格（需要重新会诊或补充）
  ≤2/6 = 💀 失败（流程有严重问题）
```

## 🔄 自动评估流程

```
1. MDT 报告交付后，自动用以上6条 eval 逐条检查
2. 评分 < 5 分 → 自动标注未通过的条目
3. 分析失败原因（是 skill 问题？agent 问题？指令问题？）
4. 如是 skill 问题 → 修改 SKILL.md 中的对应规则
5. 如是 agent 问题 → 优化对应 agent 的 SOUL.md
6. 重跑测试 → 验证改进效果
7. 记录到 memory/evolution/mdt-consultation.md
```

---

## 📊 场景专项 Eval（可选叠加）

### 合同审查专项
- C1: "是否对照了具体的法律条文（精确到条/款/项）？"
- C2: "违约条款是否有年化利率换算？"
- C3: "是否标注了合同类型及适用的专项法规？"

### 公文写作专项
- W1: "标题是否符合「机关名称+关于+事由+的+文种」公式？"
- W2: "数据引用是否有明确来源？"
- W3: "是否有领导可引用的金句（至少1句）？"

### 品牌宣传专项
- B1: "是否覆盖了至少2个平台的内容方案？"
- B2: "是否包含标题备选（至少3个版本）？"
- B3: "是否标注了发布时间建议和互动策略？"

---

*Eval 标准本身也需要迭代。当发现某条 eval 太松或太严时，及时调整。*
*目标：让 MDT 会诊报告的通过率稳定在 90% 以上。*