Skill flagged — suspicious patterns detected

ClawHub Security flagged this skill as suspicious. Review the scan results before using.

GLM Multimodal Analyzer

v1.0.0

使用GLM-4.6V模型进行多模态内容理解(图片、视频、文档)

0· 585· 1 versions· 3 current· 3 all-time· Updated 11h ago· MIT-0

Install

openclaw skills install multimodal

Multimodal Understanding Skill

使用智谱GLM-4.6V模型理解图片、视频、文档内容。

功能

  • 图片理解:OCR、场景分析、物体检测、属性识别
  • 视频理解:内容摘要、关键帧分析
  • 文档理解:PDF、复杂表格解析
  • 深度思考模式:开启后进行深层推理分析

使用方式

理解这张图片:[图片URL或本地路径]
分析这个视频:[视频URL]
这个PDF讲什么:[PDF URL]

技术细节

限制

  • 不支持同时处理图片+视频+文件(只能选一种模态)
  • 视频URL需要公网可访问

调用脚本

调用 scripts/analyze.py 进行分析:

python scripts/analyze.py --type image|video|file --input <url_or_path> --prompt "你的问题"

参数:

  • --type: 输入类型 (image/video/file)
  • --input: URL或本地文件路径
  • --prompt: 分析提示词
  • --thinking: 启用深度思考模式
  • --stream: 流式输出

Version tags

latestvk97c6q9j2wt5g66hsj3qm260nx82f0fp