{"skill":{"slug":"webchat-image-support","displayName":"WebChat Image Support","summary":"Enables agents to detect and analyze images sent via WebChat or other channels using vision-capable models or fallback media processing.","description":"# webchat-image-support\n\nUniversal image understanding enhancement for OpenClaw. This skill enables image understanding across all channels (WebChat, Discord, Slack, etc.) and works with any model that supports image input.\n\n## What It Does\n\nWhen users send images through any channel, this skill ensures the agent can understand and analyze them:\n\n- **Automatic Detection**: Detects when an inbound message contains images\n- **Universal Support**: Works with Claude, MiniMax, OpenAI, Gemini, or any vision-enabled model\n- **Fallback Processing**: If model doesn't support images, uses OpenClaw's built-in media understanding pipeline\n- **Multi-Image Support**: Handles multiple images in a single message\n\n## Requirements\n\n1. **Gateway with image support** (OpenClaw 2026.3.29+)\n2. **At least one vision-capable model** configured in `models.json`:\n   - Claude (with vision)\n   - MiniMax-VL-01\n   - Gemini Pro Vision\n   - GPT-4 Vision\n\n## Usage\n\nNo explicit commands needed. Just send images:\n\n```\nUser: [sends a screenshot of error]\nAgent: \"我看到了错误信息：Unable to load script...\"\n\nUser: [sends a photo]\nAgent: \"这张图片显示了一个卡通猪头...\"\n```\n\n## Configuration\n\n### Model Selection\n\nFor best results, use a vision-capable model. In `~/.openclaw/agents/main/agent/models.json`:\n\n```json\n{\n  \"providers\": {\n    \"minimax\": {\n      \"models\": [\n        {\n          \"id\": \"MiniMax-VL-01\",\n          \"input\": [\"text\", \"image\"]\n        }\n      ]\n    }\n  }\n}\n```\n\n### Default Behavior\n\n| Model Support | Behavior |\n|---------------|----------|\n| Model supports images | Direct image input to model |\n| Model no images | Use media understanding pipeline |\n\n## Troubleshooting\n\n**Q: Agent doesn't see images**\nA: Make sure your model supports image input (check `input` field in models.json)\n\n**Q: Images sent but no response**\nA: Check gateway logs for media processing errors\n\n**Q: Works in CLI but not WebChat**\nA: This skill requires OpenClaw 2026.3.29+ with the MediaPath fix\n\n## Related\n\n- Gateway fix: [GitHub #57064](https://github.com/openclaw/openclaw/issues/57064)\n- OpenClaw docs: https://openclaw.dev\n","topics":["Discord","Slack"],"tags":{"latest":"1.0.0"},"stats":{"comments":0,"downloads":470,"installsAllTime":18,"installsCurrent":0,"stars":1,"versions":1},"createdAt":1774796235012,"updatedAt":1778492279313},"latestVersion":{"version":"1.0.0","createdAt":1774796235012,"changelog":"- Initial release of universal image understanding for OpenClaw agents.\n- Automatically detects and processes images from any supported chat channel.\n- Compatible with any vision-enabled model (Claude, MiniMax, OpenAI, Gemini), with fallback to OpenClaw’s media pipeline if unavailable.\n- Supports analysis of multiple images per message.\n- No special commands needed—just send images for instant interpretation.","license":"MIT-0"},"metadata":null,"owner":{"handle":"styoha","userId":"s17a21ezzpbzwcjqfp6ryapsrh83v8s1","displayName":"styoha","image":"https://avatars.githubusercontent.com/u/265061284?v=4"},"moderation":null}