Document Processing

Other

支持PDF、Word、Excel、PPT格式转换、内容提取及批量处理,自动同步飞书云文档和推送处理结果。

Install

openclaw skills install document-processing

Document Processing Skill

Description

文档处理技能,支持多格式文档转换、内容提取和批量处理。

Features

  • 📄 格式转换(PDF/Word/Excel/PPT)
  • 🔍 内容提取(文本、表格、图片)
  • ✏️ 批量处理(重命名、格式统一)
  • 🤝 飞书集成(云文档同步)

Dependencies

  • Python 3.13+
  • PyPDF2, python-docx, openpyxl
  • pdfplumber, python-docx2txt

Usage

from document_processing import DocumentProcessor

# 初始化文档处理器
processor = DocumentProcessor()

# 转换PDF到Word
processor.convert_format("input.pdf", "output.docx")

# 提取PDF内容
content = processor.extract_content("document.pdf")

# 批量处理文档
processor.batch_process("./docs", ".docx", ".pdf")

Integration with Feishu

  • 文档自动同步到飞书云文档
  • 内容提取结果自动保存到飞书多维表格
  • 批量处理结果推送到飞书消息

Configuration

document_processing:
  temp_dir: "/tmp/document_processing"
  default_format: "docx"
  ocr_enabled: true
  ocr_api_key: "your_ocr_api_key"

feishu:
  doc_folder_token: "your_folder_token"
  bitable_app_token: "your_bitable_token"
  bitable_table_id: "your_table_id"