Install
openclaw skills install invoice-ocr增值税发票识别技能:自动识别 PDF(单页/多页)或各种常见图片格式(PNG/JPG等)的发票,调用百度云增值税发票 OCR API 提取关键信息,输出结构化 Excel 报告。适用于以下场景: 用户上传发票文件并要求识别、提取、转换信息时;需要批量处理发票并生成 Excel 汇总表时; 需要对发票进行检测、内容...
openclaw skills install invoice-ocr本技能支持 PDF(单页/多页) 和 常见图片格式 的发票识别,底层强依赖百度云增值税发票 OCR 接口,将非结构化文档转化为结构化数据,并输出为 Excel 报告。核心处理包含三个模块:
在执行任务前,必须确认以下条件:
.pdf / .png / .jpg / .jpeg 等支持的格式。.env):工作目录下必须存在 .env 文件,且包含 BAIDU_API_KEY 和 BAIDU_SECRET_KEY。
result.xlsx)。# 1. 安装核心依赖
pip install pymupdf openpyxl requests Pillow python-dotenv --break-system-packages -q
# 2. 运行极简命令行
python invoice_ocr_main.py \
--input <文件路径> \
--output ./outputs/发票识别结果.xlsx
向用户交付生成的 Excel 文件,并简明扼要地总结处理情况(例如:"已成功处理包含 3 页的 PDF,成功识别 2 张增值税专用发票,1 页因非发票内容已跳过,请查看 Excel 汇总。")。
脚本 invoice_ocr_main.py 的核心架构如下:
python-dotenv 读取鉴权信息,获取并缓存 Access Token。vat_invoice 增值税专用接口。general_basic 通用文字识别接口,并通过正则尽力挽救关键数据。系统对成功识别的发票进行满分 100 分的量化评估,权重分配如下:
| 评估维度 | 权重 | 说明 |
|---|---|---|
| 字段完整性 | 60% | 校验核心字段(号码、日期、买卖双方、总金额)是否提取成功 |
| 图像清晰度 | 40% | 基于 OCR 引擎返回的文本置信度转化 |
评级标准:
数据导出为单 Sheet("发票汇总"),主打高度概括和直观,包含以下核心列头:
| 异常场景 | 系统的自动化处理策略 |
|---|---|
| 多页混排 PDF | 使用 PyMuPDF 逐页渲染分离,独立处理并汇总到同一 Excel |
| 超大图片超限 | 自动按长宽比不超过 3:1 裁剪,并递减 JPEG 质量直至满足百度接口要求 |
| API 调用失败 | 阶梯式延迟重试 3 次,彻底失败则在 Excel 记录"识别失败"并继续处理下一页 |
| 非发票 / 空白页 | has_invoice 标记为 False,跳过 API 消耗并在 Excel 中如实记录 |
| 字段含扰码/空格 | 代码层面对提取的发票号码、税号进行 .strip() 和 .replace(" ", "") 清洗 |