Install
openclaw skills install multimodal使用GLM-4.6V模型进行多模态内容理解(图片、视频、文档)
openclaw skills install multimodal使用智谱GLM-4.6V模型理解图片、视频、文档内容。
理解这张图片:[图片URL或本地路径]
分析这个视频:[视频URL]
这个PDF讲什么:[PDF URL]
调用 scripts/analyze.py 进行分析:
python scripts/analyze.py --type image|video|file --input <url_or_path> --prompt "你的问题"
参数:
--type: 输入类型 (image/video/file)--input: URL或本地文件路径--prompt: 分析提示词--thinking: 启用深度思考模式--stream: 流式输出