Install
openclaw skills install xhs-rental-ocr从小红书笔记图片提取结构化数据(租金/面积/单价等),自动裁切长图 + OCR 识别 + 导出 Excel。 使用 Apple Vision 框架进行离线 OCR,支持中文识别。 Use when: 用户需要从小红书/社交媒体图片提取表格数据、价格信息、统计数据等。
openclaw skills install xhs-rental-ocr从小红书笔记图片中提取结构化数据(租金/面积/单价等),支持自动裁切长图、OCR 识别、导出 Excel。
# OpenClaw / Codex
git clone https://github.com/zhuobao/xhs-rental-ocr.git ~/.agents/skills/xhs-rental-ocr
cd ~/.agents/skills/xhs-rental-ocr
python3 scripts/extract_data.py --url "https://www.xiaohongshu.com/explore/xxx" --output data.xlsx
# 从本地图片提取
python3 scripts/extract_data.py --images image1.jpg image2.jpg --output data.xlsx
# 裁切长图后识别(9 等分)
python3 scripts/extract_data.py --images long_image.jpg --slice 9 --output data.xlsx
# 导出 CSV 格式
python3 scripts/extract_data.py --images image.jpg --output data.csv
# 指定识别语言(中文 + 英文)
python3 scripts/extract_data.py --images image.jpg --languages "zh-Hans,en-US"
1. 下载图片(从 URL 或本地)
↓
2. 可选:裁切长图(N 等分)
↓
3. Apple Vision OCR 识别
↓
4. 正则提取结构化数据
↓
5. 导出 Excel/CSV
xhs-rental-ocr/
├── SKILL.md # 技能描述(本文件)
├── scripts/
│ ├── extract_data.py # 主脚本
│ └── vision_ocr.py # OCR 模块
├── examples/
│ └── sample_output.xlsx
└── README.md # 详细文档
安装依赖:
pip3 install pillow openpyxl pyobjc-framework-Vision pyobjc-framework-Cocoa
| 列名 | 说明 |
|---|---|
| 序号 | 记录编号 |
| 图片 | 来源图片 |
| 区域 | 区域名称(如识别到) |
| 板块 | 小区/板块(如识别到) |
| 户型 | 户型(如识别到) |
| 面积 (平) | 建筑面积 |
| 月租金 (元) | 月租金 |
| 单价 (元/平) | 每平米单价 |
| 备注 | 其他信息 |
python3 scripts/extract_data.py \
--url "https://www.xiaohongshu.com/explore/69be073b000000002302339e" \
--output rental_data.xlsx
输出:
python3 scripts/extract_data.py \
--images screenshot.png \
--slice 9 \
--output extracted_data.xlsx
说明:将长图裁切成 9 份,分别 OCR 后合并结果。
| 参数 | 说明 | 默认值 |
|---|---|---|
--url | 小红书笔记 URL | - |
--images | 本地图片路径(可多个) | - |
--output | 输出文件路径 | output.xlsx |
--slice | 长图裁切份数 | 1(不裁切) |
--languages | OCR 语言 | zh-Hans,en-US |
--confidence | 最低置信度 | 0.3 |
--format | 输出格式 | xlsx |
使用 Apple Vision 框架:
优化策略:
欢迎提交 Issue 和 Pull Request!
GitHub: https://github.com/zhuobao/xhs-rental-ocr
MIT License