Install
openclaw skills install document-processorPDF和Word文档处理技能,支持PDF-Word相互转换、页面提取、去水印、合并拆分等操作
openclaw skills install document-processor专业的PDF和Word文档处理工具集,支持多种文档格式转换和编辑操作。
本技能需要以下Python库:
安装命令:
pip install PyPDF2 python-docx pdf2docx pillow pdfplumber
# 提取第14-29页
python3 pdf_extractor.py "input.pdf" "output_pages_14-29.pdf" -s 14 -e 29
# 提取特定页面
python3 pdf_extractor.py "input.pdf" "output_specific.pdf" -p "1,3,5-7,10"
python3 pdf_to_word.py "document.pdf" "document.docx"
python3 word_to_pdf.py "document.docx" "document.pdf"
python3 remove_watermark.py "input.pdf" "output_no_watermark.pdf"
python3 batch_pdf_to_word.py "/path/to/pdf/folder" "/path/to/output/folder"
本技能包含以下Python脚本:
pdf_extractor.py - PDF页面提取工具pdf_to_word.py - PDF转Word工具word_to_pdf.py - Word转PDF工具pdf_ocr.py - PDF OCR和页码识别工具remove_watermark.py - PDF去水印工具pdf_merger.py - PDF合并工具pdf_splitter.py - PDF拆分工具batch_processor.py - 批量处理工具pdf_compressor.py - PDF压缩工具image_extractor.py - 图片提取工具install_dependencies.py - 依赖安装工具test_skill.py - 技能测试工具当用户需要处理文档时:
# 分析PDF页码结构
python3 pdf_ocr.py analyze "input.pdf" --start 1 --end 50 --language chi_sim+eng
# 根据标注页码提取页面
python3 pdf_ocr.py extract "input.pdf" "output.pdf" --start-label 14 --end-label 29 --language chi_sim+eng
# 添加文本水印
python3 add_watermark.py "input.pdf" "output.pdf" --text "CONFIDENTIAL" --position "center"
# 添加图片水印
python3 add_watermark.py "input.pdf" "output.pdf" --image "watermark.png" --opacity 0.3
# 批量转换文件夹内所有PDF为Word
python3 batch_processor.py --input-dir "./pdfs" --output-dir "./docs" --operation "pdf2word"
# 批量提取所有PDF的封面
python3 batch_processor.py --input-dir "./pdfs" --output-dir "./covers" --operation "extract" --pages "1"
技能维护者:文档处理团队
最后更新:2026-03-01
版本:1.0.0
状态:✅ 生产就绪