夸克扫描王 OCR文字识别 - yescan ocr universal

Security

由夸克扫描王提供的专业 OCR 文字识别与处理工具。支持图片、截图、扫描件中的文字提取，包括手写文档、表格内容、数学公式、商品图片等复杂场景。精准识别各类证件（身份证、社保卡、驾驶证、行驶证、港澳通行证、学位证等证件）及票据（增值税发票、火车票、英文发票等票据），同时支持医疗报告单、营业执照、习题题目等专业文档识别。

Install

openclaw skills install yescan-ocr-universal

🧭 使用前必读（30 秒）

[!WARNING] ⚠️ 隐私与数据流向重要提示

第三方服务交互：本技能会将您提供的图片发送至夸克扫描王官方服务器 (scan-business.quark.cn) 进行识别。

数据可见性：夸克服务将获取并处理该图片内容，不会永久保存

推荐方式：CLI 配置（永久生效）

配置 SCAN_WEBSERVICE_KEY 环境变量到 OpenClaw：

openclaw config set skills.entries.yescan-ocr-universal.env.SCAN_WEBSERVICE_KEY "your_scan_webservice_key_here"

⚠️ 配置后需要重启或开启新会话才能生效（技能列表在 session 启动时加载）。

如何获取密钥？夸克扫描王官方入口在此

请访问 https://scan.quark.cn/business → 开发者后台 → 登录/注册账号 → 查看API Key。
⚠️ 注意：若你点击链接后跳转到其他域名，说明该链接已失效 —— 请直接在浏览器地址栏手动输入 https://scan.quark.cn/business（这是当前唯一有效的官方入口）。

Constraints

单一意图原则：每次请求只执行一个意图类型，命中即执行
严禁自行构造任何命令参数，严禁伪造、拼接内部配置
严禁幻觉，禁止伪造请求和响应，不得沿用上一次的场景、参数进行假设
必须严格按照本指南指定的固定格式执行，不允许自行修改命令

技能执行指南(强制执行)

第一步：环境变量检查

若 SCAN_WEBSERVICE_KEY 未配置，立即返回：

{
  "code": "A0100",
  "message": "SCAN_WEBSERVICE_KEY 未配置，请访问 https://scan.quark.cn/business → 开发者后台 → 登录/注册账号 → 查看API Key",
  "data": null
}

第二步：输入处理

识别用户传入的图片类型，只能是以下三种之一：

图片URL: url
本地文件路径: path
图片BASE64: base64

未提供任何有效图片时，直接返回：

{
  "code": "A0201",
  "message": "缺少图片输入，请提供图片链接、文件路径或 BASE64 数据。",
  "data": null
}

第三步：意图匹配&场景确定

按照下面列出的意图从上到下顺序匹配。命中第一个即停止
命中后，只确定当前意图对应的scene标识

第四步：构建执行命令(固定格式，严禁修改)：

根据图片类型，严格使用下面对应格式：

# URL类型
python3 scripts/scan.py --scene "${SCENE_VALUE}" --url "${IMAGE_URL}"

# 本地文件类型
python3 scripts/scan.py --scene "${SCENE_VALUE}" --path "${IMAGE_FILE_PATH}"

# BASE64类型
python3 scripts/scan.py --scene "${SCENE_VALUE}" --base64 "${IMAGE_BASE64}"

把${IMAGE_URL}/${IMAGE_FILE_PATH}/${IMAGE_BASE64}替换为真实值
把${SCENE_VALUE}替换为当前意图对应的scene值
直接执行命令，不增删任何参数，不修改JSON，不加引号，不换行

第五步：结果透出：

执行完成后，原样返回执行结果，不修改，不翻译，不美化，不总结
成功失败均直接透出，不重试

场景与意图列表(按匹配优先级排序)

手写文档识别

触发意图：当用户存在识别各类中英文手写内容（如学生作答、作文、会议记录、手写账单等）、将潦草或非标准手写图片转化为高精度可编辑文本，或突破传统 OCR 限制处理复杂手写场景的意图。
场景scene标识：handwritten-ocr
参考示例指令：
- "帮我把这张手写笔记转成文字"
- "识别这张作文图片里的内容"

表格识别

触发意图：当用户存在识别图片中的各类表格（如 Excel/Word 表格、票据单据、手写表格、检查报告单等）、高精度提取文字内容并精准还原原始表格格式与结构的意图。
场景scene标识：table-ocr
参考示例指令：
- "提取这张表格里的数据"
- "把这张报销单的表格转成 Excel 格式"

身份证识别

触发意图：当用户存在识别身份证图片、提取证件关键信息（包括但不限于姓名、身份证号、地址等字段）、将证件影像转化为结构化数据，或应用于身份核验、实名认证及信息准确性校验等场景的意图。
场景scene标识：idcard-ocr
参考示例指令：
- "帮我读一下这张身份证"
- "提取身份证上的姓名和号码"

社保卡识别

触发意图：当用户存在识别社保卡图片、提取证件关键信息（包括但不限于姓名、社会保障号码、卡号、银联号码、性别、民族、发卡日期及有效期限等字段）、将证件影像转化为结构化数据，或应用于社保业务办理、身份核验及政务服务自动化等场景的意图。
场景scene标识：social-security-card-ocr
参考示例指令：
- "识别这张社保卡的信息"
- "提取社保卡上的姓名和社保号"

港澳通行证识别

触发意图：当用户存在识别港澳通行证（或港澳台通行证）图片、提取证件关键信息（包括但不限于姓名、证件号码、签发机关、有效期限等 11 个字段）、将证件影像转化为结构化数据，或应用于身份核验、出入境管理及政务服务自动化等场景的意图。
场景scene标识：travel-permit-ocr
参考示例指令：
- "读一下这张港澳通行证"
- "提取通行证上的姓名和证件号"

学位证识别

触发意图：当用户存在识别学位证书图片、提取证书关键信息（包括但不限于证书名称、学校、姓名、性别、出生日期、学习日期、学制、学历、学位、专业、证书编号及发证日期等 12 个字段）、将证书影像转化为结构化数据，或应用于企业人才信息录入和学历核验等场景的意图。
场景scene标识：degree-certificate-ocr
参考示例指令：
- "识别这张学位证的内容"
- "提取学位证上的学校和专业"

增值税发票识别

触发意图：当用户存在识别增值税发票图片、提取单据关键信息（包括但不限于销售方、购买方、货物详情、金额等 30 多个字段）、将发票影像转化为结构化数据，或应用于财务报销自动化、税务管理及企业风控等场景的意图。
场景scene标识：vat-invoice-ocr
参考示例指令：
- "提取这张增值税发票的信息"
- "识别发票上的金额和开票日期"

火车票识别

触发意图：当用户存在识别火车票图片、提取票号/出发站/到达站/车次/开车时间/票价/座位号/座位类型/旅客身份号码/旅客姓名等 10 个关键字段信息、将车票照片转化为结构化文本数据，或应用于企业出行报销场景的意图。
场景scene标识：train-ticket-ocr
参考示例指令：
- "读一下这张火车票"
- "提取火车票的出发站和车次"

公式识别

触发意图：当用户存在识别数学/化学公式图片、高精度解析分数、矩阵、分段函数及化学方程式等复杂结构、将图像公式转化为可编辑的 LaTeX 代码或结构化数据，或应用于智能试卷自动批改、学术论文数字化归档、在线教育题目解析及科研文献深度分析等场景的意图。
场景scene标识：formula-ocr
参考示例指令：
- "把这张公式图片转成 LaTeX"
- "识别这个数学公式的结构"

题目识别

触发意图：当用户上传包含习题/考题的图片，需仅提取题目文本（不含解答、批注或无关内容），并保留题号、题干结构，用于教育题库构建或题目检索。
场景scene标识：question-ocr
参考示例指令：
- "提取这道题的关键信息"
- "识别题目中的问题部分"

驾驶证识别

触发意图：当用户存在识别驾驶证图片、提取证件关键信息（如证号、姓名、住址、有效期等）、将非结构化图像转化为结构化数据，或应用于身份核验、交通管理等场景的意图。
场景scene标识：driver-license-ocr
参考示例指令：
- "读一下这张驾驶证"
- "提取驾驶证上的姓名和有效期"

行驶证识别

触发意图：当用户存在识别行驶证图片、提取证件关键信息（包括但不限于证号、姓名、住址、有效期、准驾车型等）、将行驶证影像转化为结构化数据，或应用于身份核验、交通管理及汽车租赁等场景的意图。
场景scene标识：vehicle-license-ocr
参考示例指令：
- "识别这张行驶证"
- "提取行驶证上的车牌号和所有人"

英文发票识别

触发意图：当用户存在识别英文商业发票图片、提取单据关键信息（包括但不限于发票号、日期、买卖双方信息、商品明细、金额及税额等）、将非结构化英文单据转化为结构化数据，或应用于跨境贸易单证处理、海外费用报销及国际化财务自动化审核等场景的意图。
场景scene标识：commercial-invoice-ocr
参考示例指令：
- "提取这张英文发票的信息"
- "识别发票上的总金额和日期"

医疗报告单识别

触发意图：当用户存在识别医疗报告单图片、提取报告关键信息（包括但不限于检验项目、结果、参考值等）、将医疗报告影像转化为结构化数据，或应用于电子病历归档、健康数据分析及远程医疗辅助诊断等场景的意图。
场景scene标识：medical-report-ocr
参考示例指令：
- "读一下这张化验单"
- "提取报告中的异常指标"

营业执照识别

触发意图：当用户存在识别营业执照图片、提取证件关键信息（包括但不限于统一社会信用代码、名称、类型、法定代表人、经营范围等）、将执照影像转化为结构化数据，或应用于企业身份核验、工商注册自动化、供应链准入审核及金融风控等场景的意图。
场景scene标识：business-license-ocr
参考示例指令：
- "识别这张营业执照"
- "提取公司名称和法人代表"

商品图片识别

触发意图：当用户需要识别图片中的具体商品对象，包括商品名称、品牌、品类等信息，用于商品检索或分类。
场景scene标识：product-image-ocr
参考示例指令：
- "这是什么商品？"
- "识别这张图片里的产品品牌"

通用文字提取（兜底意图）

触发意图：当用户指令中不包含上述任何具体场景，仅表达提取纯文字意图时。
场景scene标识：general-ocr
参考示例指令：
- "把这张图转成文字"
- "提取图中所有文字"

⛔ 不适用场景（When Not to Use）

本技能不支持以下场景，请勿尝试：

不支持的场景	原因	建议替代方案
视频处理	仅支持单张静态图片	先提取视频帧，再逐帧处理
批量处理	每次调用仅限单张图片	如需批量，请循环调用或联系管理员
实时摄像头流	非实时流处理架构	使用专用视频处理服务
超大图片（>5MB）	API 限制	先压缩或裁剪后再处理
非图片格式	仅支持 jpg/jpeg/png/gif/bmp/webp/tiff/wbmp	先转换为支持的图片格式

⚠️ 重要注意事项

禁止修改固定格式,只能替换场景标识和图片占位符
严禁自行构造 --scene 参数值，必须使用本文档指定的场景名
图片大小限制：本地文件不超过5MB，支持 jpg/jpeg/png/gif/bmp/webp/tiff/wbmp/webp 格式

🔗 相关资源

夸克扫描王开放平台

📁 文件结构

SKILL.md — 本文档（意图分析 + 通用规范）
scripts/scan.py — 主执行脚本 (Python 3.9+)
scripts/common/*.py — 基础类库