Install
openclaw skills install doc-genius支持PDF、Word、Markdown智能摘要和格式转换,提供批量处理与进度报告,提升文档处理效率。
openclaw skills install doc-genius# PDF摘要
python3 scripts/doc_processor.py summarize /path/to/document.pdf
# Word摘要
python3 scripts/doc_processor.py summarize /path/to/document.docx
# Markdown摘要
python3 scripts/doc_processor.py summarize /path/to/document.md --format json
# PDF → Markdown
python3 scripts/doc_processor.py convert /path/to/document.pdf --output markdown
# Word → Markdown
python3 scripts/doc_processor.py convert /path/to/document.docx --output markdown
# Markdown → HTML
python3 scripts/doc_processor.py convert /path/to/document.md --output html
# 批量转换文件夹
python3 scripts/doc_processor.py batch /path/to/folder --output markdown
# 批量摘要
python3 scripts/doc_processor.py batch /path/to/folder --action summarize
{
"file": "document.pdf",
"type": "pdf",
"summary": "这是文档的智能摘要...",
"keywords": ["关键词1", "关键词2"],
"word_count": 5000,
"pages": 12
}
python3 scripts/doc_processor.py summarize document.pdf --format markdown
支持格式:
摘要算法:
示例:
# 本地摘要
python3 scripts/doc_processor.py summarize document.pdf --method local
# AI摘要(需配置API Key)
export OPENAI_API_KEY="sk-xxx"
python3 scripts/doc_processor.py summarize document.pdf --method ai
转换矩阵:
| 输入格式 | 输出格式 | 状态 |
|---|---|---|
| Markdown | ✅ | |
| HTML | ⚠️ 实验性 | |
| Word | Markdown | ✅ |
| Word | HTML | ✅ |
| Markdown | HTML | ✅ |
| Markdown | Word | 🔜 计划中 |
示例:
# PDF → Markdown(推荐)
python3 scripts/doc_processor.py convert report.pdf --output markdown
# Word → HTML
python3 scripts/doc_processor.py convert report.docx --output html
功能:
示例:
# 批量转换(默认并发数=5)
python3 scripts/doc_processor.py batch /path/to/docs --output markdown
# 指定并发数
python3 scripts/doc_processor.py batch /path/to/docs --output markdown --workers 10
# 生成报告
python3 scripts/doc_processor.py batch /path/to/docs --action summarize --report report.json
提取内容:
示例:
python3 scripts/doc_processor.py extract document.pdf --fields title,toc,dates
# 配置API Key
export OPENAI_API_KEY="sk-xxx"
# AI摘要(更智能)
python3 scripts/doc_processor.py summarize document.pdf --method ai --model gpt-4
# 指定输出文件
python3 scripts/doc_processor.py convert document.pdf --output markdown --out-file output.md
# 指定输出目录
python3 scripts/doc_processor.py batch /path/to/docs --output-dir /path/to/output
# 只处理PDF文件
python3 scripts/doc_processor.py batch /path/to/docs --filter "*.pdf"
# 排除文件
python3 scripts/doc_processor.py batch /path/to/docs --exclude "temp_*"
PyPDF2==3.0.1 # PDF处理
python-docx==1.1.0 # Word处理
markdown==3.5.1 # Markdown处理
beautifulsoup4==4.12.2 # HTML解析
aiofiles==23.2.1 # 异步文件处理
pip install PyPDF2 python-docx markdown beautifulsoup4 aiofiles
| 错误 | 原因 | 解决方案 |
|---|---|---|
FileNotFoundError | 文件不存在 | 检查路径 |
PermissionError | 权限不足 | 检查文件权限 |
UnsupportedFormat | 格式不支持 | 查看支持列表 |
# 调试模式
python3 scripts/doc_processor.py summarize document.pdf --log-level debug
# 分块处理
python3 scripts/doc_processor.py summarize large.pdf --chunk-size 1000
# 使用适当的并发数
python3 scripts/doc_processor.py batch /path/to/docs --workers $(nproc)
| 场景 | 推荐格式 |
|---|---|
| 内容分析 | JSON |
| 人类阅读 | Markdown |
| 网页展示 | HTML |
# 抓取网页 → 转换PDF → 智能摘要
python3 scrapling-fetch/scripts/fetch.py "https://example.com/article" --text > temp.md
python3 doc-genius/scripts/doc_processor.py summarize temp.md
Doc Genius - 让文档处理更智能 📄✨