Install
openclaw skills install image-recognition图片识别 - 通用图片识别技能,支持 OCR 文字提取、物体识别、场景分析等。自动使用用户配置的视觉模型,适用于 Android/Termux 环境。
openclaw skills install image-recognition适用于 Android/Termux 环境的图片识别技能
✅ 使用此技能:
❌ 不使用此技能:
核心方法:
为什么不用 sharp:
sharp 模块在 Termux (Android arm64) 无法加载支持的模型提供商:
qwen3.5-plus, qwen-vl-maximage_url 格式的模型脚本会自动读取 OpenClaw 的配置文件 ~/.openclaw/openclaw.json,使用已配置的模型和 API Key。
无需额外配置! 只要你的 OpenClaw 配置了支持视觉的模型即可。
# Bailian (通义千问)
export IMAGE_MODEL_PROVIDER="bailian"
export IMAGE_MODEL_API_KEY="sk-sp-xxxxxxxxxxxxx"
export IMAGE_MODEL_NAME="qwen3.5-plus"
export IMAGE_MODEL_ENDPOINT="https://coding.dashscope.aliyuncs.com/v1/chat/completions"
# OpenRouter
export IMAGE_MODEL_PROVIDER="openrouter"
export IMAGE_MODEL_API_KEY="sk-or-xxxxxxxxxxxxx"
export IMAGE_MODEL_NAME="qwen/qwen-2.5-vl-72b-instruct"
export IMAGE_MODEL_ENDPOINT="https://openrouter.ai/api/v1/chat/completions"
pip3 install requests Pillow
脚本会自动读取 OpenClaw 配置文件,使用已配置的支持视觉的模型。
python3 ~/.openclaw/skills/image-recognition/recognize.py /path/to/image.jpg
无需额外配置! 只要你的 OpenClaw 配置了支持视觉的模型(如 qwen3.5-plus)即可。
# Bailian (通义千问)
export IMAGE_MODEL_PROVIDER="bailian"
export IMAGE_MODEL_API_KEY="sk-sp-xxxxxxxxxxxxx"
export IMAGE_MODEL_NAME="qwen3.5-plus"
# OpenRouter
export IMAGE_MODEL_PROVIDER="openrouter"
export IMAGE_MODEL_API_KEY="sk-or-xxxxxxxxxxxxx"
export IMAGE_MODEL_NAME="qwen/qwen-2.5-vl-72b-instruct"
# 使用
python3 recognize.py /path/to/image.jpg
from recognize import recognize_image, get_model_config
# 自动检测配置
config = get_model_config()
print(f"使用模型:{config['provider']}/{config['model']}")
# 识别图片
result = recognize_image("/path/to/image.jpg", "提取图片中的文字")
print(result)
# 或手动指定配置
custom_config = {
"provider": "bailian",
"api_key": "sk-sp-xxx",
"model": "qwen3.5-plus",
"endpoint": "https://coding.dashscope.aliyuncs.com/v1/chat/completions",
"headers": {"Authorization": f"Bearer sk-sp-xxx"}
}
result = recognize_image("/path/to/image.jpg", config=custom_config)
大多数用户不需要手动配置,脚本会自动使用 OpenClaw 的模型配置。
~/.openclaw/openclaw.json)export IMAGE_MODEL_PROVIDER="bailian"
export IMAGE_MODEL_API_KEY="sk-sp-xxxxxxxxxxxxx"
export IMAGE_MODEL_NAME="qwen3.5-plus"
# 端点自动设置为:https://coding.dashscope.aliyuncs.com/v1/chat/completions
export IMAGE_MODEL_PROVIDER="openrouter"
export IMAGE_MODEL_API_KEY="sk-or-xxxxxxxxxxxxx"
export IMAGE_MODEL_NAME="qwen/qwen-2.5-vl-72b-instruct"
# 端点自动设置为:https://openrouter.ai/api/v1/chat/completions
export IMAGE_MODEL_PROVIDER="openai"
export IMAGE_MODEL_API_KEY="sk-xxxxxxxxxxxxx"
export IMAGE_MODEL_NAME="gpt-4o"
export IMAGE_MODEL_ENDPOINT="https://api.openai.com/v1/chat/completions"
✅ 已测试:
✅ 支持的图片格式:
A: sharp 依赖 libvips,在 Termux (Android) 上编译和安装非常困难。直接使用 Python + requests 调用 API 更简单稳定。
A: 检查:
sk-sp- 开头)coding.dashscope.aliyuncs.com)A:
qwen-turboA:
qwen3.5-plus:约 0.002 元/次(1000x1000 图片)如无 Bailian API,可使用:
qwen/qwen-2.5-vl-72b-instructtesseract(需要安装)