# PDF 转 Word 技能

[English](SKILL.md)

这是一个使用**免费**的本地 OCR 引擎 `docr` 将扫描版 PDF 文档提取并转换为可编辑的 Word (`.docx`) 文件的技能。

## 准备工作

1. 下载并初始化 OCR 引擎二进制文件：
   ```bash
   bash scripts/install.sh
   ```
2. 安装所需的 Python 依赖项：
   ```bash
   pip install -r scripts/requirements.txt
   ```

## 使用方法

运行 Python 脚本，传入输入的 PDF 文件路径和期望输出的 `.docx` 文件路径。您还可以在最后附加 `docr` 支持的其他参数（如引擎选择）。

```bash
python scripts/pdf2word.py <输入.pdf> <输出.docx> [docr参数...]
```

### 示例

使用默认的本地引擎转换单个文件：
```bash
python scripts/pdf2word.py sample.pdf sample_output.docx
```

### 使用其他 API 引擎

默认情况下，脚本使用本地的 `RapidOCR` 引擎。底层的 `docr` 工具也支持使用其他引擎（如 Google Gemini API），这可以在处理复杂排版时提供更高的识别准确率。

要使用 Gemini，请先配置您的 API 密钥：
```bash
mkdir -p ~/.ocr
echo "gemini_api_key=your_gemini_key" > ~/.ocr/config
```

然后在运行脚本时传入 `-engine gemini` 参数：
```bash
python scripts/pdf2word.py sample.pdf sample_output.docx -engine gemini
```

如果您的文档中包含**表格**，您可以利用 prompt 功能强制 Gemini 输出 Markdown 格式的表格，脚本会自动将它们转换回原生的 Word 表格：
```bash
python scripts/pdf2word.py sample.pdf sample_output.docx -engine gemini -prompt "请提取所有文本，务必使用 | 符号将表格保持为 Markdown 格式输出。"
```

### 工作原理
1. 脚本调用 `docr`，使用指定的 OCR 模型（默认为 RapidOCR）从扫描的 PDF 中读取文本。
2. 提取的文本被临时存储。
3. 使用 `python-docx` 库读取临时文本内容，并构建为格式化的 Word 文档。
4. 自动清理临时文件。