Install
openclaw skills install @duchenyu/image-vision-bridge本地图片视觉理解桥接。当用户明确要求分析、描述或理解图片内容时,调用本地 Ollama 视觉模型(qwen3.5:4b)读取图片并以文字描述返回,让不具备多模态能力的推理模型也能"看见"图片。
openclaw skills install @duchenyu/image-vision-bridge本地视觉桥接 —— 当用户明确要求分析图片时,调用 Ollama 本地视觉模型(qwen3.5:4b / qwen3.5:9b)读图并返回文字描述。
⚠️ 隐私提示: 图片内容会被读取并发送到本地 Ollama 服务进行处理。所有数据仅在本机传输,不上传云端。
python scripts/describe_image.py "<图片路径>"
| 参数 | 说明 | 默认值 |
|---|---|---|
--model | 视觉模型名 | qwen3.5:4b |
--prompt | 自定义分析指令 | 详细描述所有细节 |
# 提取图中文字
--prompt "请逐字提取图片中所有文字内容,不要遗漏任何文字。"
# 分析 UI 界面
--prompt "这是一个软件界面截图,请分析其布局、按钮、输入框等交互元素。"
# 提取代码
--prompt "完整提取截图中的代码,保留缩进和格式。"
如果 Ollama 模型崩溃("llama-server process has terminated"),需要重启 Ollama 服务:
# macOS / Linux
pkill ollama && ollama serve &
# Windows (PowerShell)
Get-Process -Name "ollama*" -ErrorAction SilentlyContinue | Stop-Process -Force
Start-Process ollama -ArgumentList "serve" -WindowStyle Hidden