Install
openclaw skills install tencentcloud-ocr腾讯云通用文字识别(高精度版)(GeneralAccurateOCR) 技能包。当用户发送/粘贴图片、提供图片URL、或要求识别图片中的文字时,应自动调用此技能。支持图像整体文字的检测和识别,支持中文、英文、中英文、数字和特殊字符号的识别,并返回文字框位置和文字内容。适用于文字较多、版式复杂、对识别准召率要求较高...
openclaw skills install tencentcloud-ocr调用腾讯云OCR通用文字识别(高精度版)接口,对图片中的文字进行精准提取。
核心能力:
references/resume-parsing.md)官方文档:https://cloud.tencent.com/document/api/866/37831
references/resume-parsing.md - 多语种简历结构化识别指引(处理流程、Prompt模板、输出格式化模板、格式化规则)当用户提出以下需求时触发此技能:
https://xxx.com/image.jpg、https://xxx.cos.xxx/xxx.png 等),需要识别其中的文字references/resume-parsing.md 指引)references/resume-parsing.md 指引)当检测到以下信号时,应自动调用此技能,无需用户显式要求"OCR":
http(s):// 开头且以图片扩展名(.jpg, .jpeg, .png, .bmp, .gif, .webp, .tiff)结尾的URL,或包含已知图片托管域名(如 cos.、cdn.、oss.、imgur.com 等)的URL调用方式:
--image-url 参数传入--image-base64 参数传入文件路径或Base64内容tencentcloud-sdk-python(通过 pip install tencentcloud-sdk-python 安装)TENCENTCLOUD_SECRET_ID:腾讯云API密钥IDTENCENTCLOUD_SECRET_KEY:腾讯云API密钥Key运行 scripts/main.py 脚本完成文字识别。脚本使用 SDK 高层接口 client.GeneralAccurateOCR(req) 进行调用,具有类型安全和自动反序列化的优势。
| 参数 | 类型 | 必填 | 说明 |
|---|---|---|---|
| ImageBase64 | str | 否(二选一) | 图片Base64值,不超过10MB |
| ImageUrl | str | 否(二选一) | 图片URL地址,优先使用 |
| IsPdf | bool | 否 | 是否开启PDF识别,默认false |
| PdfPageNumber | int | 否 | 需要识别的PDF页码,IsPdf为true时有效,默认1 |
| IsWords | bool | 否 | 是否返回单字信息,默认false |
| UserAgent | str | 否 | 请求来源标识(可选),用于追踪调用来源,统一固定为Skills |
--user-agent参数是可选参数,统一固定为Skills,无需手动传递。用于标识API调用来源,便于追踪和统计:
| 调用框架 | --user-agent 参数值 | 说明 |
|---|---|---|
| 所有框架 | Skills | 统一固定值,不传递时也默认为此值 |
实现说明:
--user-agent命令行参数传递,SDK 会将其拼接为 SDK_PYTHON_x.x.x; Skills 注入到请求中Skills,未传递时也默认为此值ReqBody.RequestClient 字段中,可用于追踪来源识别成功后返回 JSON 格式结果:
{
"raw_text": "识别到的完整文字内容\n第二行文字\n第三行文字",
"RequestId": "xxx"
}
无文字时返回:
{
"raw_text": "",
"message": "No text detected in the image.",
"RequestId": "xxx"
}
# 用户提供了图片URL,直接传入识别(最常用场景)
python scripts/main.py --image-url "https://example.com/document.jpg"
# 用户上传了图片文件,使用 Base64 方式调用
python scripts/main.py --image-base64 "/path/to/document.jpg"
# 识别 PDF 文件中的文字
python scripts/main.py --image-url "https://example.com/doc.pdf" \
--is-pdf true --pdf-page-number 1
# 返回单字信息
python scripts/main.py --image-url "https://example.com/document.jpg" --is-words true
在购买页面中选择 通用文字识别(高精度版) 完成购买。
Linux / macOS:
export TENCENTCLOUD_SECRET_ID="你的SecretId"
export TENCENTCLOUD_SECRET_KEY="你的SecretKey"
Windows (PowerShell):
$env:TENCENTCLOUD_SECRET_ID = "你的SecretId"
$env:TENCENTCLOUD_SECRET_KEY = "你的SecretKey"