Install
openclaw skills install my-pdf-extract-skill智能从文本PDF中提取商品编码、名称、批次和数量,支持跨行名称处理并输出结构化Excel文件。
openclaw skills install my-pdf-extract-skill从PDF文件中智能提取商品标签数据(商品编码、商品名称、商品批次、商品数量),并输出到Excel文件。
# 激活虚拟环境
source ../venv/bin/activate
# 运行提取脚本
python extract_exact.py
extract_exact.py:主提取脚本Lisa-3.pdfLisa-3_精确提取.xlsxmy-pdf-extract-skill/
├── SKILL.md # 本文件
├── references/
│ └── 完整标签数据.png # 参考图片
├── scripts/
│ └── extract_exact.py # 提取脚本
└── README.md # 使用说明
pip install pdfplumber pandas openpyxl
在脚本中修改以下变量:
pdf_path = "./Lisa-3.pdf" # PDF文件路径
output_path = "./Lisa-3_精确提取.xlsx" # 输出文件路径
# 提取数据
labels = extract_exact_data(pdf_path)
# 保存到Excel
df = pd.DataFrame(labels)
df.to_excel(output_path, index=False)
要适配其他PDF格式,可以:
extract_exact_data函数中的正则表达式get_exact_names函数中的名称列表[你的名字]
v1.0.0