夸克扫描王 OCR文字识别 - yescan ocr universal

v1.0.9

由夸克扫描王提供的专业 OCR 文字识别与处理工具。支持图片、截图、扫描件中的文字提取,包括手写文档、表格内容、数学公式、商品图片等复杂场景。精准识别各类证件(身份证、社保卡、驾驶证、行驶证、港澳通行证、学位证等证件)及票据(增值税发票、火车票、英文发票等票据),同时支持医疗报告单、营业执照、习题题目等专业文档识别。

3· 1k·2 current·2 all-time
by夸克扫描王@mozhihuidage

Install

OpenClaw Prompt Flow

Install with OpenClaw

Best for remote or guided setup. Copy the exact prompt, then paste it into OpenClaw for mozhihuidage/yescan-ocr-universal.

Previewing Install & Setup.
Prompt PreviewInstall & Setup
Install the skill "夸克扫描王 OCR文字识别 - yescan ocr universal" (mozhihuidage/yescan-ocr-universal) from ClawHub.
Skill page: https://clawhub.ai/mozhihuidage/yescan-ocr-universal
Keep the work scoped to this skill only.
After install, inspect the skill metadata and help me finish setup.
Required env vars: SCAN_WEBSERVICE_KEY
Required binaries: python3
Use only the metadata you can verify from ClawHub; do not invent missing requirements.
Ask before making any broader environment changes.

Command Line

CLI Commands

Use the direct CLI path if you want to install manually and keep every step visible.

OpenClaw CLI

Bare skill slug

openclaw skills install yescan-ocr-universal

ClawHub CLI

Package manager switcher

npx clawhub@latest install yescan-ocr-universal
Security Scan
Capability signals
Requires sensitive credentials
These labels describe what authority the skill may exercise. They are separate from suspicious or malicious moderation verdicts.
VirusTotalVirusTotal
Benign
View report →
OpenClawOpenClaw
Benign
high confidence
Purpose & Capability
Name/description, required binary (python3), declared environment variable (SCAN_WEBSERVICE_KEY), and included client code all align with an OCR-as-a-service integration that posts images to scan-business.quark.cn. No unrelated credentials or binaries are requested.
Instruction Scope
The runtime instructions and code accept an image via URL, local file path, or base64 and will send the image data to the remote API. This matches the stated purpose, but it does mean any local file path supplied will be read, base64-encoded, and transmitted to the remote service; returned files (images/docs) may be written to the system temp directory. The SKILL.md explicitly warns about remote transmission. Users should be aware this is expected behavior and a potential data-exfiltration vector if sensitive local files are provided.
Install Mechanism
No install spec is provided (instruction-only behavior plus bundled Python scripts). Nothing is downloaded from remote URLs at install time; the code runs with python3 already on PATH. This is low-risk from an install perspective.
Credentials
Only a single credential (SCAN_WEBSERVICE_KEY) is required and is declared as the primary credential. That is proportional for a hosted OCR API. No unrelated secrets or config paths are requested.
Persistence & Privilege
always is false, the skill is user-invocable and can be called autonomously (platform default). The skill does write returned artifacts to the system temp directory but does not request persistent agent-wide privileges or modify other skills.
Assessment
This skill will read the image you provide (including local files you pass by path), encode it, and send it to Quark's API at scan-business.quark.cn for processing — so do not upload sensitive documents unless you trust the service and have reviewed its privacy/retention policy. Keep your SCAN_WEBSERVICE_KEY secret (store it in a secure vault), and restrict where you run this skill (avoid pointing it at arbitrary local paths). Be aware returned files are saved to the system temporary directory; periodically review or clean that directory. If you need stronger guarantees about data residency or retention, contact the service provider or avoid using the remote API.

Like a lobster shell, security has layers — review code before you run it.

Runtime requirements

🔍︎ Clawdis
Binspython3
EnvSCAN_WEBSERVICE_KEY
Primary envSCAN_WEBSERVICE_KEY
latestvk979xmje83nyj5h697sxrq7mvs84zps7
1kdownloads
3stars
10versions
Updated 1w ago
v1.0.9
MIT-0

🧭 使用前必读(30 秒)

[!WARNING] ⚠️ 隐私与数据流向重要提示

  • 第三方服务交互:本技能会将您提供的图片 发送至夸克扫描王官方服务器 (scan-business.quark.cn) 进行识别。
  • 数据可见性:夸克服务将获取并处理该图片内容,不会永久保存

推荐方式:CLI 配置(永久生效)

配置 SCAN_WEBSERVICE_KEY 环境变量到 OpenClaw:

openclaw config set skills.entries.yescan-ocr-universal.env.SCAN_WEBSERVICE_KEY "your_scan_webservice_key_here"

⚠️ 配置后需要重启或开启新会话才能生效(技能列表在 session 启动时加载)。

如何获取密钥?夸克扫描王官方入口在此

请访问 https://scan.quark.cn/business → 开发者后台 → 登录/注册账号 → 查看API Key。
⚠️ 注意:若你点击链接后跳转到其他域名,说明该链接已失效 —— 请直接在浏览器地址栏手动输入 https://scan.quark.cn/business(这是当前唯一有效的官方入口)。


Constraints

  • 单一意图原则:每次请求只执行一个意图类型,命中即执行
  • 严禁自行构造任何命令参数,严禁伪造、拼接内部配置
  • 严禁幻觉,禁止伪造请求和响应,不得沿用上一次的场景、参数进行假设
  • 必须严格按照本指南指定的固定格式执行,不允许自行修改命令

技能执行指南(强制执行)

第一步:环境变量检查

  • SCAN_WEBSERVICE_KEY 未配置,立即返回:
{
  "code": "A0100",
  "message": "SCAN_WEBSERVICE_KEY 未配置,请访问 https://scan.quark.cn/business → 开发者后台 → 登录/注册账号 → 查看API Key",
  "data": null
}

第二步:输入处理

识别用户传入的图片类型,只能是以下三种之一:

  • 图片URL: url
  • 本地文件路径: path
  • 图片BASE64: base64

未提供任何有效图片时,直接返回:

{
  "code": "A0201",
  "message": "缺少图片输入,请提供图片链接、文件路径或 BASE64 数据。",
  "data": null
}

第三步:意图匹配&场景确定

  • 按照下面列出的意图从上到下顺序匹配。命中第一个即停止
  • 命中后,只确定当前意图对应的scene标识

第四步:构建执行命令(固定格式,严禁修改)

根据图片类型,严格使用下面对应格式:

# URL类型
python3 scripts/scan.py --scene "${SCENE_VALUE}" --url "${IMAGE_URL}"

# 本地文件类型
python3 scripts/scan.py --scene "${SCENE_VALUE}" --path "${IMAGE_FILE_PATH}"

# BASE64类型
python3 scripts/scan.py --scene "${SCENE_VALUE}" --base64 "${IMAGE_BASE64}"
  • ${IMAGE_URL}/${IMAGE_FILE_PATH}/${IMAGE_BASE64}替换为真实值
  • ${SCENE_VALUE}替换为当前意图对应的scene值
  • 直接执行命令,不增删任何参数,不修改JSON,不加引号,不换行

第五步:结果透出

  • 执行完成后,原样返回执行结果,不修改,不翻译,不美化,不总结
  • 成功 失败均直接透出,不重试

场景与意图列表(按匹配优先级排序)

  1. 手写文档识别
  • 触发意图:当用户存在识别各类中英文手写内容(如学生作答、作文、会议记录、手写账单等)、将潦草或非标准手写图片转化为高精度可编辑文本,或突破传统 OCR 限制处理复杂手写场景的意图。
  • 场景scene标识:handwritten-ocr
  • 参考示例指令:
    • "帮我把这张手写笔记转成文字"
    • "识别这张作文图片里的内容"
  1. 表格识别
  • 触发意图:当用户存在识别图片中的各类表格(如 Excel/Word 表格、票据单据、手写表格、检查报告单等)、高精度提取文字内容并精准还原原始表格格式与结构的意图。
  • 场景scene标识:table-ocr
  • 参考示例指令:
    • "提取这张表格里的数据"
    • "把这张报销单的表格转成 Excel 格式"
  1. 身份证识别
  • 触发意图:当用户存在识别身份证图片、提取证件关键信息(包括但不限于姓名、身份证号、地址等字段)、将证件影像转化为结构化数据,或应用于身份核验、实名认证及信息准确性校验等场景的意图。
  • 场景scene标识:idcard-ocr
  • 参考示例指令:
    • "帮我读一下这张身份证"
    • "提取身份证上的姓名和号码"
  1. 社保卡识别
  • 触发意图:当用户存在识别社保卡图片、提取证件关键信息(包括但不限于姓名、社会保障号码、卡号、银联号码、性别、民族、发卡日期及有效期限等字段)、将证件影像转化为结构化数据,或应用于社保业务办理、身份核验及政务服务自动化等场景的意图。
  • 场景scene标识:social-security-card-ocr
  • 参考示例指令:
    • "识别这张社保卡的信息"
    • "提取社保卡上的姓名和社保号"
  1. 港澳通行证识别
  • 触发意图:当用户存在识别港澳通行证(或港澳台通行证)图片、提取证件关键信息(包括但不限于姓名、证件号码、签发机关、有效期限等 11 个字段)、将证件影像转化为结构化数据,或应用于身份核验、出入境管理及政务服务自动化等场景的意图。
  • 场景scene标识:travel-permit-ocr
  • 参考示例指令:
    • "读一下这张港澳通行证"
    • "提取通行证上的姓名和证件号"
  1. 学位证识别
  • 触发意图:当用户存在识别学位证书图片、提取证书关键信息(包括但不限于证书名称、学校、姓名、性别、出生日期、学习日期、学制、学历、学位、专业、证书编号及发证日期等 12 个字段)、将证书影像转化为结构化数据,或应用于企业人才信息录入和学历核验等场景的意图。
  • 场景scene标识:degree-certificate-ocr
  • 参考示例指令:
    • "识别这张学位证的内容"
    • "提取学位证上的学校和专业"
  1. 增值税发票识别
  • 触发意图:当用户存在识别增值税发票图片、提取单据关键信息(包括但不限于销售方、购买方、货物详情、金额等 30 多个字段)、将发票影像转化为结构化数据,或应用于财务报销自动化、税务管理及企业风控等场景的意图。
  • 场景scene标识:vat-invoice-ocr
  • 参考示例指令:
    • "提取这张增值税发票的信息"
    • "识别发票上的金额和开票日期"
  1. 火车票识别
  • 触发意图:当用户存在识别火车票图片、提取票号/出发站/到达站/车次/开车时间/票价/座位号/座位类型/旅客身份号码/旅客姓名等 10 个关键字段信息、将车票照片转化为结构化文本数据,或应用于企业出行报销场景的意图。
  • 场景scene标识:train-ticket-ocr
  • 参考示例指令:
    • "读一下这张火车票"
    • "提取火车票的出发站和车次"
  1. 公式识别
  • 触发意图:当用户存在识别数学/化学公式图片、高精度解析分数、矩阵、分段函数及化学方程式等复杂结构、将图像公式转化为可编辑的 LaTeX 代码或结构化数据,或应用于智能试卷自动批改、学术论文数字化归档、在线教育题目解析及科研文献深度分析等场景的意图。
  • 场景scene标识:formula-ocr
  • 参考示例指令:
    • "把这张公式图片转成 LaTeX"
    • "识别这个数学公式的结构"
  1. 题目识别
  • 触发意图:当用户上传包含习题/考题的图片,需仅提取题目文本(不含解答、批注或无关内容),并保留题号、题干结构,用于教育题库构建或题目检索。
  • 场景scene标识:question-ocr
  • 参考示例指令:
    • "提取这道题的关键信息"
    • "识别题目中的问题部分"
  1. 驾驶证识别
  • 触发意图:当用户存在识别驾驶证图片、提取证件关键信息(如证号、姓名、住址、有效期等)、将非结构化图像转化为结构化数据,或应用于身份核验、交通管理等场景的意图。
  • 场景scene标识:driver-license-ocr
  • 参考示例指令:
    • "读一下这张驾驶证"
    • "提取驾驶证上的姓名和有效期"
  1. 行驶证识别
  • 触发意图:当用户存在识别行驶证图片、提取证件关键信息(包括但不限于证号、姓名、住址、有效期、准驾车型等)、将行驶证影像转化为结构化数据,或应用于身份核验、交通管理及汽车租赁等场景的意图。
  • 场景scene标识:vehicle-license-ocr
  • 参考示例指令:
    • "识别这张行驶证"
    • "提取行驶证上的车牌号和所有人"
  1. 英文发票识别
  • 触发意图:当用户存在识别英文商业发票图片、提取单据关键信息(包括但不限于发票号、日期、买卖双方信息、商品明细、金额及税额等)、将非结构化英文单据转化为结构化数据,或应用于跨境贸易单证处理、海外费用报销及国际化财务自动化审核等场景的意图。
  • 场景scene标识:commercial-invoice-ocr
  • 参考示例指令:
    • "提取这张英文发票的信息"
    • "识别发票上的总金额和日期"
  1. 医疗报告单识别
  • 触发意图:当用户存在识别医疗报告单图片、提取报告关键信息(包括但不限于检验项目、结果、参考值等)、将医疗报告影像转化为结构化数据,或应用于电子病历归档、健康数据分析及远程医疗辅助诊断等场景的意图。
  • 场景scene标识:medical-report-ocr
  • 参考示例指令:
    • "读一下这张化验单"
    • "提取报告中的异常指标"
  1. 营业执照识别
  • 触发意图:当用户存在识别营业执照图片、提取证件关键信息(包括但不限于统一社会信用代码、名称、类型、法定代表人、经营范围等)、将执照影像转化为结构化数据,或应用于企业身份核验、工商注册自动化、供应链准入审核及金融风控等场景的意图。
  • 场景scene标识:business-license-ocr
  • 参考示例指令:
    • "识别这张营业执照"
    • "提取公司名称和法人代表"
  1. 商品图片识别
  • 触发意图:当用户需要识别图片中的具体商品对象,包括商品名称、品牌、品类等信息,用于商品检索或分类。
  • 场景scene标识:product-image-ocr
  • 参考示例指令:
    • "这是什么商品?"
    • "识别这张图片里的产品品牌"
  1. 通用文字提取(兜底意图)
  • 触发意图:当用户指令中不包含上述任何具体场景,仅表达提取纯文字意图时。
  • 场景scene标识:general-ocr
  • 参考示例指令:
    • "把这张图转成文字"
    • "提取图中所有文字"

⛔ 不适用场景(When Not to Use)

本技能不支持以下场景,请勿尝试:

不支持的场景原因建议替代方案
视频处理仅支持单张静态图片先提取视频帧,再逐帧处理
批量处理每次调用仅限单张图片如需批量,请循环调用或联系管理员
实时摄像头流非实时流处理架构使用专用视频处理服务
超大图片(>5MB)API 限制先压缩或裁剪后再处理
非图片格式仅支持 jpg/jpeg/png/gif/bmp/webp/tiff/wbmp先转换为支持的图片格式

⚠️ 重要注意事项

  1. 禁止修改固定格式,只能替换场景标识和图片占位符
  2. 严禁自行构造 --scene 参数值,必须使用本文档指定的场景名
  3. 图片大小限制:本地文件不超过5MB,支持 jpg/jpeg/png/gif/bmp/webp/tiff/wbmp/webp 格式

🔗 相关资源

📁 文件结构

  • SKILL.md — 本文档(意图分析 + 通用规范)
  • scripts/scan.py — 主执行脚本 (Python 3.9+)
  • scripts/common/*.py — 基础类库

Comments

Loading comments...