# 噪声模式识别手册

## 1. DOM / 技术噪声

### 1.1 HTML 标签残留

**特征**：原始文本中混入未被解析的 HTML 标签。

```
示例输入：
"OpenAI发布了GPT-5模型<span class='highlight'>该模型在多项基准测试中</span>表现优异"

检测结果：含 <span class='highlight'> 标签残留
处理：剥离标签，保留内部文本
清洗后："OpenAI发布了GPT-5模型，该模型在多项基准测试中表现优异"
```

**检测方法**：正则匹配 `<[^>]+>` 模式；检查常见 HTML 实体（`&nbsp;` `&lt;` `&gt;`）。

### 1.2 JavaScript 代码片段

**特征**：网页 JS 代码被错误抓取为正文内容。

```
示例输入：
"function trackEvent(category, action, label) { ga('send', 'event', category, action, label); }
今日A股三大指数集体高开。"

检测结果：首行为 JavaScript 代码
处理：移除 JS 代码段，保留正文
清洗后："今日A股三大指数集体高开。"
```

**检测方法**：检测 `function`/`var`/`const`/`let`/`document.`/`window.` 等关键字；检测花括号代码块结构。

### 1.3 CSS 样式文本

**特征**：CSS 样式声明被错误提取为正文。

```
示例输入：
".article-content { font-size: 16px; line-height: 1.8; color: #333; }
苹果公司今日发布了新款MacBook Pro。"

检测结果：首行为 CSS 样式
处理：移除样式文本
清洗后："苹果公司今日发布了新款MacBook Pro。"
```

**检测方法**：检测 `{ ... }` 内含 CSS 属性的模式；检测常见 CSS 选择器语法。

### 1.4 导航栏 / 面包屑 / 页脚

**特征**：网站结构元素被错误纳入正文。

```
示例输入：
"首页 > 科技频道 > AI资讯 > 正文
英伟达发布新一代H200 GPU
首页 | 关于我们 | 联系方式 | 隐私政策 | 版权声明 © 2024"

检测结果：含面包屑导航和页脚
处理：剥离导航和页脚
清洗后："英伟达发布新一代H200 GPU"
```

**检测方法**：面包屑模式 `首页 > ... > 正文`；页脚关键词检测（"版权声明""隐私政策""联系我们""Cookie 设置"）。

### 1.5 Cookie 提示 / 权限请求

**特征**：浏览器弹窗文本被纳入正文。

```
示例输入：
"本网站使用Cookie来确保您获得最佳体验。继续浏览即表示您同意使用Cookie。
了解更多 | 同意
特斯拉Q3交付量创纪录"

检测结果：含 Cookie 同意提示
处理：移除提示文本
清洗后："特斯拉Q3交付量创纪录"
```

**检测方法**：关键词匹配 "Cookie""cookies""隐私设置""同意继续""接受全部"。

### 1.6 阅读量 / 互动数据噪声

**特征**：文章中的阅读量、点赞数等被当作正文。

```
示例输入：
"阅读 10.2万 · 评论 328 · 收藏 1.2万
华为发布鸿蒙4.0系统更新"

检测结果：含互动数据
处理：移除互动统计行
清洗后："华为发布鸿蒙4.0系统更新"
```

**检测方法**：正则匹配 `阅读\s*[\d.]+万?`、`评论\s*[\d.]+`、`点赞\s*[\d.]+` 等模式。

---

## 2. 内容噪声

### 2.1 重复 Snippet

**特征**：同一内容在不同来源中出现多次。

```
示例：
来源A："据知情人士透露，字节跳动正在开发一款新的AI对话产品"
来源B："知情人士透露，字节跳动正在开发一款新的AI对话产品"
来源C："字节跳动正在开发一款新的AI对话产品，据知情人士透露"

检测结果：三条 snippet 高度相似（相似度 > 85%）
处理：合并为一条，标注 3 个来源
清洗后："据知情人士透露，字节跳动正在开发一款新的AI对话产品"
  → sources: [来源A, 来源B, 来源C]
```

### 2.2 转载链重复

**特征**：内容从原始来源逐级转载，产生多条记录。

```
示例：
来源A (新华财经, 09:00)：原创报道
来源B (腾讯财经, 09:30)：转载自新华财经
来源C (某头条号, 10:15)：转载自腾讯财经

检测结果：A→B→C 转载链
处理：保留来源A（一手），B和C移入 removed_noise，reason: "secondary_repost"
```

**检测方法**：检查文本中的转载声明（"转载自""来源：""原文链接""本文来源于"）；比对发布时间先后。

### 2.3 推荐内容 / 相关阅读

**特征**：网站推荐的关联文章被错误抓取。

```
示例输入：
"美联储宣布加息25个基点。相关推荐：1. 欧洲央行维持利率不变 2. 日本央行调整收益率曲线控制 3. 美元指数走势分析"

检测结果：含 "相关推荐" 引导的推荐列表
处理：移除推荐内容
清洗后："美联储宣布加息25个基点。"
```

**检测方法**：关键词匹配 "相关推荐""推荐阅读""延伸阅读""猜你喜欢""您可能感兴趣""热门文章"。

---

## 3. OCR 噪声

### 3.1 OCR 乱码

**特征**：图片 OCR 识别产生的错误字符。

```
示例输入：
"2024年全球GDP增长率为3.2％（国际货币基金组识发布）"

检测结果："组识" 应为 "组织"
处理：上下文修正（如能确定）或标注 [OCR_POSSIBLE_ERROR]
清洗后："2024年全球GDP增长率为3.2％（国际货币基金组织发布）[OCR_POSSIBLE_ERROR]"
```

**检测方法**：字典校验（人名、机构名、专业术语）；上下文语义一致性检查；常见 OCR 错误模式表（如 `0/O`、`1/l/I`、`rn/m`）。

### 3.2 OCR 残片

**特征**：OCR 识别不完整，产生碎片化文本。

```
示例输入：
"...增长率达到8.5%，超...市场预期。分析师认为...
...于供应链恢复和需求回暖...未来两...有望继续...

注：本段为PDF扫描件OCR提取，部分内容缺失"

检测结果：文本多处截断，含省略号占位
处理：标注 [OCR_FRAGMENT]，保留可用部分，移除完全无语义的碎片
清洗后："[OCR_FRAGMENT] 增长率达到8.5%，超过市场预期。分析师认为...[OCR_FRAGMENT]"
```

---

## 4. 伪实体模式

### 4.1 不存在的人物

**特征**：引用了不存在或虚构的人物。

```
示例：
"据哈佛大学AI实验室主任李伟明教授表示，GPT-5将在2025年发布"

检测结果：
- 哈佛大学AI实验室无"李伟明"此人
- 该陈述可能是AI幻觉生成

处理：Drop + Warning
警告："证据引用'哈佛大学AI实验室主任李伟明教授'，该实体无法验证，疑似AI幻觉"
```

### 4.2 不存在的机构

**特征**：引用了不存在的机构或组织。

```
示例：
"据全球人工智能治理委员会（GAIGC）发布的报告显示..."

检测结果："全球人工智能治理委员会（GAIGC）" 非已知国际组织
处理：Drop + Warning
警告："引用机构'全球人工智能治理委员会（GAIGC）'无法验证存在性"
```

### 4.3 不存在的事件 / 数据

**特征**：引用了从未发生的事件或虚假数据。

```
示例：
"2024年3月，OpenAI被谷歌以5000亿美元收购"

检测结果：该事件未发生
处理：Drop + Warning
警告："声称'2024年3月OpenAI被谷歌收购'与已知事实矛盾"
```

### 4.4 相似名称混淆

**特征**：将相似但不同的实体混为一谈。

```
示例：
"中国银行宣布将存款利率下调20个基点"（实际是中国人民银行）

检测结果：混淆了"中国银行"（商业银行）和"中国人民银行"（央行）
处理：Clean + Warning
清洗后："中国人民银行宣布将存款利率下调20个基点"
警告："原始来源混淆了中国银行和中国人民银行"
```

### 4.5 AI 幻觉引用

**特征**：引用了不存在的论文、报告、法规等。

```
示例：
"根据《2024年全球AI安全评估白皮书》（OpenAI & DeepMind联合发布）..."

检测结果：不存在该白皮书
处理：Drop + Warning
警告："引用的《2024年全球AI安全评估白皮书》无法验证存在性，疑似AI幻觉"
```

**检测方法**：
- 已知实体库交叉验证
- 逻辑一致性检查（事件时间线、组织架构合理性）
- 多源交叉验证（关键声明必须在至少 2 个独立来源中出现）
- 幻觉特征检测：过度精确的数字、缺乏来源链的"据...称"、格式过于完美的引用

---

## 5. 噪声检测优先级

| 优先级 | 噪声类型 | 检测成本 | 误判风险 |
|--------|----------|----------|----------|
| P0 | HTML/JS/CSS 残留 | 低 | 极低 |
| P0 | 导航栏/页脚/广告 | 低 | 低 |
| P1 | 重复/转载链 | 中 | 低 |
| P1 | 推荐内容 | 低 | 低 |
| P2 | OCR 乱码/残片 | 中 | 中 |
| P2 | 相似名称混淆 | 中 | 中 |
| P3 | 伪实体（人物/机构） | 高 | 中 |
| P3 | AI 幻觉引用 | 高 | 中高 |
| P3 | 虚假事件/数据 | 高 | 低 |

**原则**：P0 噪声必须 100% 清除；P1 噪声应尽量清除；P2/P3 噪声标注警告后由人工或下游流程决策。
