Install
openclaw skills install fundreport-scrape基金月报信息提取。支持文本+OCR 双重提取,自动处理双月对比。从 PDF 月报提取数据并填充 Excel 模板。
openclaw skills install fundreport-scrape上传 Excel 模板和 PDF 月报,AI 自动提取数据(文本+OCR)并生成对比 Excel。
| 功能 | 说明 |
|---|---|
| 核心指标提取 | 久期、到期收益率 (YTM)、基金规模 |
| 分布数据提取 | 行业分布、地区分布、信用评级分布 |
| 模板保持 | 保持 Excel 原有样式、公式、数据类型 |
| 智能匹配 | 字段名模糊匹配,适应不同表述方式 |
| 自动分类 | 识别基金名称和日期,智能分 Sheet |
| 类型 | 说明 | 要求 |
|---|---|---|
| Excel 模板 | 用户自定义格式 | 文件名:互认基金月度更新_YYYYMMvsYYYYMM.xlsx |
| PDF 月报 | 基金月度报告 | 支持文本/图表/扫描版,文件名含月份(如 华夏 2601.pdf) |
| 文件 | 说明 |
|---|---|
| 互认基金月度更新_YYYYMMvsYYYYMM_最终版.xlsx | 包含上月(列 4)和本月(列 6)的完整对比数据 |
提取内容:
# 系统工具
yum install -y tesseract tesseract-langpack-chi_simp poppler-utils
# Python 包
pip install pdf2image Pillow opencv-python-headless
工作目录/
├── 模板/
│ └── 互认基金月度更新_202512vs202601.xlsx
├── 月报数据/
│ ├── 202512/ # 上月 PDF
│ │ ├── 华夏 202512.pdf
│ │ └── 南方东英 202512.pdf
│ └── 202601/ # 本月 PDF
│ ├── 华夏 2601.pdf
│ └── 南方东英 2601.pdf
cd ~/.agents/skills/fundreport-scrape
python3 scripts/auto_update_two_months.py \
"/path/to/互认基金月度更新_202512vs202601.xlsx" \
"/path/to/月报数据/202512/" \
"/path/to/月报数据/202601/" \
"/path/to/互认基金月度更新_202512vs202601_最终版.xlsx"
输出文件包含:
fundreport-scrape/
├── SKILL.md # 技能说明
├── SECURITY_REVIEW.md # 安全评估报告
├── _meta.json # 元数据
├── requirements.txt # Python 依赖
├── scripts/
│ ├── auto_update_two_months.py # ⭐ 双月处理(推荐)
│ ├── auto_update_ocr.py # OCR 增强版
│ └── install_ocr_deps.sh # 依赖安装脚本
└── references/
├── extraction_templates.json # 提取模板配置
├── ocr_rules.md # OCR 识别规则
├── field_mapping.md # 字段映射规则
├── template_learning.md # 模板学习规则
├── batch_processing.md # 批量处理规则
└── interaction_rules.md # 交互规则
| 脚本 | 用途 | 推荐使用 |
|---|---|---|
auto_update_two_months.py | 双月对比处理 | ⭐⭐⭐ 推荐 |
auto_update_ocr.py | 单月 OCR 处理 | ⭐⭐ 备选 |
install_ocr_deps.sh | 一键安装依赖 | ⭐⭐⭐ 首次使用 |
A: 确保 PDF 清晰度足够,建议:
A: 检查文件名格式:
YYYYMMvsYYYYMM2601 或 202601)A: 可能原因:
核心功能:
技术特性:
系统依赖: