Claw Vision

Other

Analyze local images including screenshots, receipts, and documents to extract structured text, UI elements, and provide content summaries with confidence le...

Install

openclaw skills install claw-vision

能力定位

本地图片路径 → 结构化文本理解。通过 vision-tool.py 调用 Gemini 3.1 Pro Preview（NUWA Flux）。

触发场景

用户发送截图、照片、图片文件
关键词：截图、图片里有什么、识别、screenshot、describe image

调用方式

python3 ~/Documents/OpenClaw/workspace/scripts/vision-tool.py <图片绝对路径> "<提示语>"

参数

参数	必填	默认值
图片路径	✅	—
提示语	✅	"图片里有什么？"

支持格式

PNG / JPG / JPEG / GIF / WEBP（仅本地文件，不支持URL）

输出规范

[summary]     图片内容概述
[fields]      关键字段提取（含文字/表格时）
[ui_elements] 界面元素列表（UI截图时）
[confidence]   置信度: 高/中/低

依赖

vision-tool.py: ~/Documents/OpenClaw/workspace/scripts/vision-tool.py
API: NUWA Flux gemini-3.1-pro-preview