# PDF处理目录结构

## 完整目录树

```
~/Documents/论文处理/
│
├── 未处理/
│   ├── 中文/              # 待处理的中文PDF
│   └── 英文/              # 待处理的英文PDF
│
├── 处理中/              # 临时文件，处理完成后删除
│   └── 文件名_提取.txt   # PDF提取的文字
│
├── 已完成/
│   ├── 原文/              # 处理完成的PDF原文
│   ├── 翻译/              # PDF的中文翻译
│   │   └── 文件名_翻译.txt
│   └── 概述/              # PDF的200字纯中文概述
│       └── 文件名_概述.txt
│
└── 索引/                # 论文索引（待开发）
```

## 文件夹说明

### 未处理/

**用途**: 存放待处理的PDF文件

**子文件夹**:
- `中文/`: 中文PDF（不翻译，只生成概述）
- `英文/`: 英文PDF（翻译+生成概述）

**命名规范**:
- 文件名使用原始PDF文件名
- 例如: `2602.23362v1.pdf`

### 处理中/

**用途**: 临时存储提取的文字

**文件**:
- `文件名_提取.txt`: PDF提取的纯文本
- 特点: 处理完成后自动删除

### 已完成/

**用途**: 存放处理完成的文件

**子文件夹**:
- `原文/`: 原始PDF文件（从未处理/移动过来）
- `翻译/`: 中文翻译文件（仅英文PDF）
- `概述/`: 200字纯中文概述（所有PDF）

**文件格式**:
- 翻译文件: `文件名_翻译.txt`
- 概述文件: `文件名_概述.txt`

**文件内容结构**:

**翻译文件**:
```
# 论文翻译

**源文件**: 文件名.pdf
**处理时间**: YYYY-MM-DD HH:MM:SS
**翻译模型**: 本地Ollama (qwen2.5:7b)
**分段数**: N

## 📄 翻译内容

[翻译内容]
```

**概述文件**:
```
# 论文概述

**源文件**: 文件名.pdf
**处理时间**: YYYY-MM-DD HH:MM:SS
**概述模型**: 本地Ollama (qwen2.5:7b)

## 📝 论文概述

[200字纯中文概述]
```

### 索引/

**用途**: 论文索引（待开发功能）

**计划**: 可能包含论文元数据、关键词、分类信息

## 使用流程

### 处理新PDF

1. **上传PDF**:
   - 中文PDF → `~/Documents/论文处理/未处理/中文/`
   - 英文PDF → `~/Documents/论文处理/未处理/英文/`

2. **执行处理**:
   - 运行PDF处理脚本
   - 指定PDF路径和输出目录

3. **查看结果**:
   - 翻译: `~/Documents/论文处理/已完成/翻译/`
   - 概述: `~/Documents/论文处理/已完成/概述/`
   - 原文: `~/Documents/论文处理/已完成/原文/`

### 文件生命周期

```
未处理/文件.pdf
    ↓ [处理脚本]
处理中/文件_提取.txt（临时）
    ↓ [翻译+概述]
已完成/文件_翻译.txt（保存）
已完成/文件_概述.txt（保存）
已完成/文件.pdf（移动）
    ↓ [清理]
处理中/文件_提取.txt（删除）
```

## 注意事项

- **处理中文件夹**: 只包含临时文件，处理完成后自动清空
- **已完成文件夹**: 包含所有处理结果，按类型分类
- **原文文件夹**: 保留原始PDF，方便后续查阅
- **路径权限**: 确保Python脚本有读写权限