# 隐私审查规则详细手册

## 目录
1. [敏感信息分级标准](#敏感信息分级标准)
2. [自动识别模式](#自动识别模式)
3. [脱敏方法](#脱敏方法)
4. [审查报告模板](#审查报告模板)
5. [特殊场景处理](#特殊场景处理)

---

## 敏感信息分级标准

### 🔴 P0 — 绝对禁止入库（自动脱敏，不等确认）

| 类型 | 识别模式 | 脱敏方式 | 示例 |
|------|---------|---------|------|
| 身份证号 | 18位数字（含末位X） | `[身份证号已脱敏]` | 440301199001011234 → [身份证号已脱敏] |
| 银行卡号 | 16-19位数字 | `[银行卡号已脱敏]` | 6222021234561234567 → [银行卡号已脱敏] |
| 手机号 | 1[3-9]开头的11位数字 | 保留前3后4 | 13812345678 → 138****5678 |
| 密码/验证码 | "密码是""验证码" | `[密码/验证码已脱敏]` | 密码是123456 → [密码已脱敏] |
| 当事人真名+具体案情 | 人名+案件细节组合 | 化名+概括化 | "张三欠李四800万" → "甲方欠乙方大额款项" |
| 未成年人信息 | 涉及未成年人的任何个人信息 | 完全脱敏 | 全部替换为[已脱敏] |
| 犯罪记录细节 | 涉及刑事案件的个人具体行为 | 概括化处理 | 具体行为 → "涉嫌XX罪" |
| 医疗健康信息 | 个人病历、诊断、用药 | 完全脱敏 | [健康信息已脱敏] |

### 🟡 P1 — 需所有者确认（默认脱敏，确认后可保留）

| 类型 | 识别模式 | 默认脱敏方式 | 确认后处理 |
|------|---------|-------------|-----------|
| 客户/公司名称 | 人名/公司名在商务语境中 | "A公司""甲方" | 所有者确认可保留 |
| 具体金额 | 数字+万/亿/元 | "大额款项""数百万" | 所有者确认可保留 |
| 商业报价/策略 | "报价""底价""策略""分成" | `[商业策略已脱敏]` | 所有者确认可保留 |
| 合同条款细节 | 具体合同约定 | 概括化 | 所有者确认可保留 |
| 内部管理信息 | 团队人事、薪酬、考核 | `[内部信息已脱敏]` | 所有者确认可保留 |
| 客户联系方式 | 电话、邮箱、地址 | 脱敏 | 所有者确认可保留 |
| 诉讼/项目策略 | 具体攻防策略或项目方案 | `[策略已脱敏]` | 所有者确认可保留 |

### 🟢 P2 — 可直接入库

| 类型 | 说明 |
|------|------|
| 法律法规/行业标准 | 任何公开的法律、法规、标准原文 |
| 公开裁判文书/判例 | 已公开的裁判文书中的裁判规则 |
| 行业通用数据 | 公开的行业统计数据、费率、比率 |
| 通用知识点 | 专业领域的通用方法论和概念解释 |
| 公开案例 | 官方发布的典型案例 |
| 学术观点 | 公开发表的学术论文观点 |
| 操作流程 | 通用的业务操作流程 |
| 工具使用经验 | 软件工具使用技巧 |

---

## 自动识别模式

### 正则匹配规则（P0自动脱敏）

```
# 身份证号
/\b\d{17}[\dXx]\b/

# 银行卡号（排除日期、电话等误匹配）
/\b[3-6]\d{15,18}\b/

# 手机号
/\b1[3-9]\d{9}\b/

# 邮箱
/\b[\w.+-]+@[\w-]+\.[\w.-]+\b/

# 密码/验证码上下文
/(?:密码|验证码|口令|pin|password)[是为：:\s]*\S+/i
```

### 语义识别规则（需AI判断）

**P0级语义模式：**
- 人名 + 负面动词(欠/借/偷/逃/骗/诈) + 金额 → 当事人+案情
- 具体地址 + 门牌号/楼栋号 → 个人住址
- 未成年 + 任何个人信息 → 必须脱敏
- 疾病/诊断 + 人名 → 健康信息

**P1级语义模式：**
- 公司名 + 金额 + 商务动词(报价/签约/合作) → 商业信息
- "我们的策略是""底线是""最低""不能低于" → 商业策略
- 内部人事变动/薪酬讨论 → 内部管理信息

---

## 脱敏方法

### 化名映射表（同一录音内保持一致）

```
第1个自然人 → 甲方/张某
第2个自然人 → 乙方/李某
第3个自然人 → 丙方/王某
第1个公司 → A公司
第2个公司 → B公司
第3个公司 → C公司
```

> 不同录音的化名映射互相独立，不需要跨录音保持一致。

### 金额模糊化规则

| 原始金额 | 模糊化结果 |
|---------|-----------|
| 1-10万 | "数万元" |
| 10-100万 | "数十万元" |
| 100-1000万 | "数百万元" |
| 1000万-1亿 | "数千万元" |
| 1亿以上 | "数亿元" |

### 地址模糊化规则

| 原始 | 模糊化 |
|------|--------|
| 具体到门牌号/楼栋号 | 保留到市/区级 |
| 小区名+栋号+房号 | 保留到市/区级 |
| 省市区+路名+号 | 保留到省市级 |

---

## 审查报告模板

每条录音处理后，生成隐私审查报告存档：

```markdown
# 隐私审查报告

**录音**：{标题}
**笔记ID**：{note_id}
**审查时间**：{datetime}
**审查结果**：{通过/需确认/有P0脱敏}

## P0自动脱敏（{N}处）
1. [类型] 位置：第X段 → 脱敏方式
2. ...

## P1待确认（{N}处）
1. [类型] 原始内容摘要 → 等待所有者确认
2. ...

## P2直接入库（{N}处）
1. [类型] 内容摘要
2. ...

## 所有者确认结果
- 确认时间：{datetime}（未确认则标注"待确认"）
- 各项确认结果：✅ 可入库 / 🔒 脱敏 / ❌ 不入库
```

---

## 特殊场景处理

### 场景1：录音中有多个客户/第三方的信息
- 每个客户的信息独立审查
- 化名映射在同一录音内保持一致
- 不同录音的化名映射互相独立

### 场景2：录音中包含所有者自己的商业策略
- 报价、分成比例、谈判底线 → P1，需确认
- 公开演讲/分享内容 → P2，可入库
- 个人职业规划/收入 → P1，需确认

### 场景3：培训课堂录音
- 讲师公开讲授的内容 → P2，可入库
- 课堂互动中学员提到的个人案例 → P1，需确认
- 讲师/学员个人联系方式 → P0，自动脱敏

### 场景4：电话/通话录音
- 通话对方的声音特征描述 → 不记录
- 通话中提到的第三方信息 → 按级别审查
- 通话中的情绪表达/闲聊 → 不入库（非知识内容）

### 场景5：所有者长时间未确认P1内容
- 超过config.json中设定的超时时间（默认48小时）未确认
- 按 config.json 中 `default_p1_action` 处理（默认脱敏）
- 发送提醒（24小时后）
- 记录"超时默认处理"到审查报告

### 场景6：录音内容涉及多国/多地区法规
- 优先适用录音所在地的隐私保护法规
- 如涉及GDPR/CCPA等更严格的隐私法规，按更严格的标准处理
- 不确定时，按P1处理（宁严勿松）
