专业文档处理

Other

专业文档处理工具包,支持格式转换、OCR识别、批量处理、公文排版、文档比对、内容提取、水印添加等全功能文档处理,支持所有常见文档格式。

Install

openclaw skills install document-pro-cn

Document Pro 专业文档处理工具

一站式文档处理工具,覆盖绝大多数办公文档处理场景,不需要安装多个软件,一个工具搞定所有文档需求。

🚀 核心功能

1. 格式转换

支持所有常见文档格式互转:

源格式支持转换到的格式
PDFWord、Excel、PPT、图片、TXT、Markdown、HTML
WordPDF、HTML、Markdown、TXT、图片
ExcelPDF、CSV、HTML、Markdown
PPTPDF、图片、HTML、Markdown
图片PDF、Word、TXT、Markdown(OCR识别文字)
MarkdownPDF、Word、HTML、PPT
扫描件/PDF图片版可编辑Word、Excel、TXT(OCR识别)

2. OCR识别

  • 高精度识别图片、PDF扫描件中的文字,准确率99%以上
  • 支持表格识别,自动还原表格结构,可直接导出到Excel
  • 支持中英文混合识别、手写体识别
  • 批量识别整个文件夹的图片/扫描件

3. 批量处理

  • 批量转换格式:整个文件夹的文档一键转换到指定格式
  • 批量加水印:批量给所有文档添加文字/图片水印,支持自定义位置、透明度、大小
  • 批量重命名:按照规则批量重命名文档,比如按日期、序号、关键词等
  • 批量提取内容:批量提取所有文档中的标题、表格、关键信息到Excel

4. 公文排版

  • 完全符合《党政机关公文格式》国家标准(GB/T 9704-2012)
  • 一键生成标准公文:自动设置页边距、字体、字号、行距、页码、版头、版记等格式
  • 支持所有公文类型:通知、报告、请示、批复、函、纪要等
  • 自动校验格式错误,一键修正

5. 其他实用功能

  • 文档比对:对比两个版本的文档,高亮显示新增、删除、修改的内容,生成比对报告
  • PDF处理:拆分PDF、合并多个PDF、加密/解密PDF、提取指定页面、旋转页面
  • 水印添加:支持文字/图片水印,自定义位置、透明度、旋转角度、大小
  • 内容提取:自动提取文档中的所有图片、表格、附件、联系方式、关键信息
  • 压缩优化:压缩PDF/Word/图片大小,不损失清晰度,大幅减小文件体积

💻 使用方法

基础命令

# 格式转换:把PDF转成Word
document-pro convert --input "D:\文档\报告.pdf" --output "D:\文档\报告.docx" --to docx

# OCR识别:把扫描件PDF转成可编辑Word
document-pro ocr --input "D:\文档\扫描件.pdf" --output "D:\文档\可编辑版.docx"

# 批量转换:把整个文件夹的PDF转成Word
document-pro batch-convert --input-dir "D:\所有PDF" --output-dir "D:\转成Word" --to docx

# 公文排版:把普通Word转成标准公文格式
document-pro official-format --input "D:\通知.docx" --output "D:\标准格式通知.docx" --type 通知

# 文档比对:对比两个版本的差异
document-pro compare --old "D:\报告v1.docx" --new "D:\报告v2.docx" --output "D:\差异比对报告.docx"

# 批量添加水印
document-pro watermark --input-dir "D:\所有文档" --output-dir "D:\加水印后" --text "内部资料 禁止外泄" --opacity 0.3 --position 右下角

# PDF拆分:把一个PDF拆分成多个
document-pro pdf-split --input "D:\大文档.pdf" --output-dir "D:\拆分后" --per-pages 10

# PDF合并:把多个PDF合并成一个
document-pro pdf-merge --inputs "D:\1.pdf,D:\2.pdf,D:\3.pdf" --output "D:\合并后.pdf"

常用参数说明

参数说明示例
--input输入文件路径--input "D:\报告.pdf"
--output输出文件路径--output "D:\报告.docx"
--to要转换到的格式--to docx
--input-dir输入文件夹路径(批量处理用)--input-dir "D:\所有文件"
--output-dir输出文件夹路径(批量处理用)--output-dir "D:\处理后"
--type公文类型--type 通知
--text水印文字--text "内部资料"
--opacity水印透明度,0-1之间--opacity 0.3
--position水印位置:左上角/右上角/左下角/右下角/居中--position 右下角

🔧 依赖安装

首次使用前安装依赖:

pip install python-docx PyPDF2 pillow pytesseract pandas openpyxl

安装完成后所有功能立即可用。