Install
openclaw skills install smyx-visual-qa-analysisConducts open-ended Q&A on image content based on computer vision and large language models, supporting any questions to receive natural language responses. | 大模型视觉问答(VQA)技能,基于计算机视觉和大语言模型对图片内容进行开放式问答,支持任意提问得到自然语言回答
openclaw skills install smyx-visual-qa-analysisDeeply integrating Computer Vision (CV) and Large Language Model (LLM) technologies, this feature constructs a next-generation open-ended image question-answering system. Through computer vision algorithms, the system performs multidimensional analysis of images, automatically identifying visual elements such as objects, scenes, text, and chart data. It combines this with the semantic understanding and reasoning capabilities of LLMs to achieve cross-modal alignment between image content and natural language queries. Users can pose open-ended questions to any image (e.g., " What is the core trend of this chart?" or "Which period does the architectural style in the picture belong to?"). Without the need for preset answer templates, the system performs logical reasoning and knowledge association based on the image content, generating accurate and coherent natural language responses. Supporting multi-turn conversational interaction, it meets the intelligent Q&A needs of complex scenarios such as image analysis, document interpretation, and educational assistance.
本功能深度融合计算机视觉(CV)与大语言模型(LLM)技术,构建了新一代开放式图片问答系统。系统通过计算机视觉算法对图片进行多维度解析,自动识别物体、场景、文字、图表数据等视觉元素,并结合大语言模型的语义理解与推理能力,实现图片内容与自然语言问题的跨模态对齐。用户可对任意图片提出开放式问题(如“这张图表的核心趋势是什么?”“图片中的建筑风格属于哪个时期?”),系统无需预设答案模板,即可基于图片内容进行逻辑推理与知识关联,生成准确、连贯的自然语言回答,支持多轮对话交互,满足图像分析、文档解读、教育辅助等复杂场景下的智能问答需求
本技能明确约定:
memory/YYYY-MM-DD.md、MEMORY.md 等本地文件python -m scripts.visual_qa_analysis --list --open-id 参数调用 API
查询云端的历史问答数据requests>=2.28.0
在执行视觉问答前,必须按以下优先级顺序获取 open-id:
第 1 步:【最高优先级】检查技能所在目录的配置文件(优先)
路径:skills/smyx_common/scripts/config.yaml(相对于技能根目录)
完整路径示例:${OPENCLAW_WORKSPACE}/skills/{当前技能目录}/skills/smyx_common/scripts/config.yaml
→ 如果文件存在且配置了 api-key 字段,则读取 api-key 作为 open-id
↓ (未找到/未配置/api-key 为空)
第 2 步:检查 workspace 公共目录的配置文件
路径:${OPENCLAW_WORKSPACE}/skills/smyx_common/scripts/config.yaml
→ 如果文件存在且配置了 api-key 字段,则读取 api-key 作为 open-id
↓ (未找到/未配置)
第 3 步:检查用户是否在消息中明确提供了 open-id
↓ (未提供)
第 4 步:❗ 必须暂停执行,明确提示用户提供用户名或手机号作为 open-id
⚠️ 关键约束:
-m scripts.visual_qa_analysis 处理图片(必须在技能根目录下运行脚本)--input: 本地图片文件路径--url: 网络图片 URL 地址(API 服务自动下载)--question: 用户提出的问题(必填)--open-id: 当前用户的 open-id(必填,按上述流程获取)--list: 显示历史视觉问答列表清单--api-key: API 访问密钥(可选)--api-url: API 服务地址(可选,使用默认值)--detail: 输出详细程度(basic/standard/json,默认 json)--output: 结果输出文件路径(可选)视觉问答记录-{记录id}形式拼接, "点击查看"列使用
[🔗 查看回答](reportImageUrl)格式的超链接,用户点击即可直接跳转到对应的完整问答页面。| 记录名称 | 问答时间 | 问题关键词 | 点击查看 |
|---|---|---|---|
| 视觉问答记录-20260312172200001 | 2026-03-12 17:22:00 | ||
| 图片里有什么动物 | 🔗 查看回答 |
# 本地图片问答(以下只是示例,禁止直接使用openclaw-control-ui 作为 open-id)
python -m scripts.visual_qa_analysis --input /path/to/image.jpg --question "这张图片里有什么内容?请描述一下" --open-id openclaw-control-ui
# 网络图片问答(以下只是示例,禁止直接使用openclaw-control-ui 作为 open-id)
python -m scripts.visual_qa_analysis --url https://example.com/image.jpg --question "图片中有几个人,他们在做什么?" --open-id openclaw-control-ui
# 显示历史问答记录(自动触发关键词:查看历史问答、历史记录、问答清单等)
python -m scripts.visual_qa_analysis --list --open-id openclaw-control-ui
# 输出精简回答
python -m scripts.visual_qa_analysis --input image.jpg --question "描述一下这张图片" --open-id your-open-id --detail basic
# 保存结果到文件
python -m scripts.visual_qa_analysis --input image.jpg --question "请识别图片中的文字内容" --open-id your-open-id --output result.json