# 数据提取规则详解

## 1. 数据定位与过滤

### 1.1 提取范围

**必须提取的类别：**
- ✅ 传感与采集设备
- ✅ 传输与组网
- ✅ 供电系统（可选，根据需求）

**必须排除的类别：**
- ❌ 项目施工
- ❌ 交付服务
- ❌ 运维服务
- ❌ 软件平台
- ❌ 差旅费
- ❌ 人工费
- ❌ 税金
- ❌ 运输费
- ❌ 安装调试费
- ❌ 培训费

### 1.2 识别关键词

**实体物料特征词：**
- 包含具体型号（如 SGLZ-01、XX-2000）
- 包含技术参数（如量程、精度、功率）
- 包含单位（如个、台、套、米）

**非实体服务特征词：**
- 包含"费"字（差旅费、人工费）
- 包含"服务"（运维服务、技术服务）
- 包含"施工"、"安装"、"调试"
- 包含"软件"、"平台"、"系统开发"

## 2. 字段提取规范

### 2.1 核心字段

| 字段 | 说明 | 示例 |
|------|------|------|
| 产品名称 | 标准化后的名称 | 振弦式应变计 |
| 型号/描述 | 原始描述中的核心信息 | 量程 0-2000με，精度 0.1%FS |
| 数量 | 纯数字，不带单位 | 150 |
| 单位 | 计量单位 | 个、台、套 |
| 所属项目 | 来源项目名称 | 桥梁监测 A 标段 |

### 2.2 提取优先级

1. **优先提取表格数据** - 结构化数据准确性高
2. **其次提取清单数据** - 注意格式可能不统一
3. **最后提取文本描述** - 需要 NLP 解析

## 3. 智能对齐规则

### 3.1 名称标准化流程

```
原始名称 → 关键词匹配 → 映射表查询 → 标准名称
```

**示例：**
- "振弦式表面应变计" → 含"应变" → 映射表 → "振弦式应变计"
- "4G 网关" → 含"网关" → 映射表 → "智能网关"
- "SGLZ-01" → 型号匹配 → 映射表 → "智能网关"

### 3.2 合并规则

**同一产品大类的合并条件：**
1. 标准名称相同
2. 核心技术参数相近（允许公差范围）
3. 功能用途一致

**合并后的处理：**
- 数量累加
- 型号描述取最具代表性的
- 备注中标注来源

## 4. 时间维度映射

### 4.1 输入格式

```markdown
项目 A - 2026 年 4 月
项目 B - 2026 年 6 月
项目 C - 2026 年 8 月
```

### 4.2 映射逻辑

```
物料清单 → 按项目分组 → 按时间聚合 → 输出汇总表
```

### 4.3 输出格式

**格式 A：按时间拆分多表**
```markdown
### 2026 年 4 月交付需求表
| 产品类别 | 产品名称 | ... | 数量 |
|----------|----------|-----|------|

### 2026 年 6 月交付需求表
...
```

**格式 B：单表多列**
```markdown
| 产品类别 | 产品名称 | 4 月数量 | 6 月数量 | 8 月数量 | 总计 |
|----------|----------|---------|---------|---------|------|
```

## 5. 质量控制

### 5.1 数据验证

- ✅ 数量必须为正整数
- ✅ 产品名称不能为空
- ✅ 必须属于提取范围
- ✅ 时间映射必须准确

### 5.2 异常处理

| 异常类型 | 处理方式 |
|----------|----------|
| 数量缺失 | 标记为"待确认"，不纳入汇总 |
| 名称无法识别 | 保留原名，添加备注 |
| 时间未指定 | 归入"未指定时间"类别 |
| 单位不统一 | 转换为标准单位后汇总 |

## 6. 输出检查清单

- [ ] 所有非实体物料已排除
- [ ] 同类产品已合并
- [ ] 数量已精确求和
- [ ] 时间映射准确
- [ ] 表格格式清晰
- [ ] 核心参数已提炼

---

## 版本历史

| 版本 | 日期 | 更新内容 |
|------|------|----------|
| 1.0 | 2026-03-19 | 初始版本 |
