Install
openclaw skills install free-pdf-processor一站式 PDF 处理技能。支持 PDF 文本/图片/表格提取、格式转换(PDF↔Word/Excel)、合并拆分、OCR 识别、批量处理、水印添加、加密解密、压缩等。使用场景: (1) 从 PDF 提取文本内容进行数据分析 (2) 将 PDF 转换为 Word/Excel 方便编辑 (3) 合并或拆分 PDF 文件 (4) 对扫描件进行 OCR 识别提取文字 (5) 批量处理多个 PDF 文件 (6) 添加水印或加密保护 PDF (7) 压缩 PDF 减小文件体积
openclaw skills install free-pdf-processorcd D:\PDF.skill\pdf-processor
pip install -r requirements.txt
| 功能 | 命令 | 说明 |
|---|---|---|
| 提取文本 | python scripts/extract_text.py <pdf_path> | 提取 PDF 文本内容 |
| 提取图片 | python scripts/extract_images.py <pdf_path> <output_dir> | 提取 PDF 中的图片 |
| 提取表格 | python scripts/extract_tables.py <pdf_path> | 提取 PDF 中的表格 |
| PDF 转 Word | python scripts/pdf_to_word.py <pdf_path> <output_path> | 转换为可编辑 Word |
| PDF 转 Excel | python scripts/pdf_to_excel.py <pdf_path> <output_path> | 提取表格到 Excel |
| 合并 PDF | python scripts/merge_pdfs.py <output_path> <file1> <file2> ... | 合并多个 PDF |
| 拆分 PDF | python scripts/split_pdf.py <pdf_path> <output_dir> | 按页拆分 PDF |
| 添加水印 | python scripts/add_watermark.py <pdf_path> <output_path> <text> | 添加文字水印 |
| OCR 识别 | python scripts/ocr_pdf.py <pdf_path> <output_path> | OCR 识别扫描件 |
| 加密 PDF | python scripts/encrypt_pdf.py <input> <output> <password> | AES-256 加密 |
| 解密 PDF | python scripts/decrypt_pdf.py <input> <output> <password> | 解密 PDF |
| 压缩 PDF | python scripts/compress_pdf.py <input> <output> | 压缩 PDF 文件 |
| 批量处理 | python scripts/batch_process.py <input_dir> <output_dir> --operation <op> | 批量处理 |
提取 PDF 文本内容,支持:
python scripts/extract_text.py input.pdf -o output.txt --metadata
提取 PDF 表格数据:
PDF 转 Word 转换:
PDF 转 Excel:
水印功能:
OCR 识别(需要安装 Tesseract):
加密解密:
压缩功能:
批量处理:
用户: 帮我提取这个合同的文本内容
AI: 使用 extract_text.py 脚本提取文本
用户: 把这个 PDF 转成 Word 文档
AI: 使用 pdf_to_word.py 进行转换
用户: 给这个文件夹里所有 PDF 添加"内部资料"水印
AI: 使用 batch_process.py 批量处理
用户: 这个文件需要加密
AI: 使用 encrypt_pdf.py 进行 AES-256 加密
pip install pymupdf pdfplumber python-docx openpyxl pillow
# 安装 Tesseract OCR
# Windows: https://github.com/UB-Mannheim/tesseract/wiki
# macOS: brew install tesseract
# Linux: sudo apt install tesseract-ocr
pip install pytesseract