moonshot skills

Other

使用 () 大模型进行图像分析、OCR提取、文案创作和多模态对话的智能工具

Install

openclaw skills install @mendynew/moonshot

大模型工具

该 Skill 集成了 的 大模型,提供强大的多模态 AI 能力,包括图像理解、OCR 文字提取、智能文案创作等功能。

功能特性

  • 图像分析与理解:深度理解图片内容、场景、物体和情感
  • OCR 文字提取:从图片中精准提取文字、表格、文档内容
  • 文案创作:根据图片或需求生成营销文案、描述文本、社交媒体内容
  • 多模态对话:支持图像和文本的交互式智能对话
  • 文档解析:解析复杂文档、图表、截图等内容
  • 智能问答:基于图片内容的智能问答系统

触发词

当用户提到以下内容时,应触发此 Skill:

  • "使用 分析图片"
  • "用 分析"
  • "文案创作"
  • "图像理解"
  • "提取图片文字"
  • "分析照片内容"
  • "生成营销文案"
  • "多模态对话"
  • "OCR 识别"

API 配置

获取 API Key

  1. 访问 官网
  2. 创建账户并登录
  3. 在控制台中生成 API Key
  4. 将 API Key 保存到环境变量:``

认证方式

所有 API 请求需要在 Authorization header 中包含 API Key:

Authorization: Bearer YOUR_API_KEY

可用模型

  • ****: 基础模型,8K 上下文
  • ****: 扩展模型,32K 上下文
  • ****: 大上下文模型,128K 上下文(推荐用于长文档处理)

核心功能

1. 图像分析

分析图片内容,识别物体、场景、情感等。

功能特点

  • 精准��别图片中的物体和场景
  • 理解图片的情感和氛围
  • 提供详细的内容描述
  • 支持多张图片的批量分析

2. OCR 文字提取

从图片中提取文字、表格、文档内容。

功能特点

  • 高精度文字识别
  • 支持中英文混合识别
  • 保留文档结构和格式
  • 表格数据提取和结构化

3. 文案创作

根据图片或需求生成各类文案。

功能特点

  • 产品描述文案
  • 营销广告文案
  • 社交媒体内容
  • 品牌故事创作

4. 多模态对话

支持图像和文本的交互式对话。

功能特点

  • 多轮对话上下文理解
  • 图像+文本混合输入
  • 智能问答和建议
  • 个性化对话风格

使用示例

示例 1: 分析产品图片

from

client = (api_key="your_api_key")

# 分析产品图片
result = client.analyze_image(
    image_path="product.jpg",
    prompt="详细分析这张产品图片,包括产品特点、适用场景、目标用户群体等"
)
print(result)

示例 2: OCR 提取文档

# 提取文档文字
result = client.extract_text(
    image_path="document.png",
    output_format="structured"  # 可选: "text", "structured", "json"
)
print(result)

示例 3: 生成营销文案

# 根据产品图片生成文案
copywriting = client.generate_copywriting(
    image_path="product.jpg",
    style="inspiring",  # 可选: "professional", "casual", "creative", "inspiring"
    platform="wechat"   # 可选: "wechat", "weibo", "xiaohongshu", "douyin"
)
print(copywriting)

示例 4: 多轮对话

# 开始多模态对话
conversation = client.create_conversation()

# 第一轮:发送图片
response1 = conversation.chat(
    message="请分析这张图片",
    image="screenshot.jpg"
)

# 第二轮:追问
response2 = conversation.chat(
    message="基于上面的分析,给出优化建议"
)

API 参数说明

图像分析参数

  • image_path (string): 图片文件路径
  • prompt (string): 分析提示词
  • model (string, 可选): 使用的模型,默认 ""
  • temperature (float, 可选): 创造性程度,0-1,默认 0.7
  • max_tokens (int, 可选): 最大输出长度,默认 1024

OCR 参数

  • image_path (string): 图片文件路径
  • output_format (string, 可选): 输出格式,"text"/"structured"/"json"
  • language (string, 可选): 语言设置,"auto"/"zh"/"en"

文案创作参数

  • image_path (string): 图片文件路径(可选)
  • prompt (string): 创作要求
  • style (string): 文案风格
  • platform (string): 目标平台
  • length (string): 文案长度,"short"/"medium"/"long"

最佳实践

提示词编写

图像分析提示词

"请详细分析这张图片,包括:
1. 主要内容和主题
2. 视觉元素和构图
3. 色彩搭配和风格
4. 情感氛围和传达的信息
5. 适用场景和目标受众"

OCR 提示词

"请提取图片中的所有文字内容,并保持原有的结构和格式。
如果是表格,请用 Markdown 表格格式输出。"

文案创作提示词

"根据这张产品图片,创作一段吸引人的营销文案。
要求:简洁有力,突出产品卖点,适合在微信朋友圈发布。
目标用户:25-35岁的都市白领。"

错误处理

  • 检查 API Key 是否有效
  • 验证图片文件格式和大小
  • 处理网络超时和重试逻辑
  • 监控 API 配额使用情况

性能优化

  • 图片预处理:压缩和格式转换
  • 批量请求合并处理
  • 结果缓存机制
  • 异步任务处理

定价信息

  • 免费试用: 新用户赠送免费额度
  • 按量付费: 根据实际使用量计费
  • 套餐包: 多种套餐包可选
  • 企业定制: 企业级解决方案

具体价格请参考官网:https://platform./pricing

支持与资源

常见问题

Q: 支持哪些图片格式? A: 支持 PNG、JPG、JPEG、WEBP 等常见格式。建议使用 PNG 或 JPG 格式以获得最佳效果。

Q: 图片大小限制? A: 单张图片建议不超过 10MB。对于高清图片,建议先进行压缩。

Q: OCR 识别准确率如何? A: 在中文识别方面表现优秀,准确率可达 95% 以上。手写文字识别需要图片清晰度较高。

Q: 可以同时处理多张图片吗? A: 支持多图输入,最多可同时处理 10 张图片。

Q: 文案创作支持哪些风格? A: 支持多种风格:专业、轻松、创意、激励等,也可以自定义风格。

Q: 如何处理敏感内容? A: 系统会自动过滤敏感内容,请确保输入内容符合法律法规和平台规范。

注意事项

⚠️ 安全提醒:

  • 永远不要在客户端代码中暴露 API Key
  • 使用环境变量或配置文件管理密钥
  • 定期轮换 API Key
  • 监控 API 使用情况

📋 使用限制:

  • 遵守 服务条款
  • 尊重知识产权和版权
  • 不得用于非法用途
  • 不得生成虚假或误导性内容

🔒 隐私保护:

  • 图片内容不会被用于模型训练
  • 传输过程采用加密
  • 数据不会存储在服务器上

技术架构

┌─────────────────┐
│   用户界面      │
│  (CLI/SDK/API)  │
└────────┬────────┘
         │
┌────────▼────────┐
│  │
│   核心处理层    │
└────────┬────────┘
         │
┌────────▼────────┐
│  │
│   多模态模型    │
└─────────────────┘

更新日志

v1.0.0 (2025-03-25)

  • 初始版本发布
  • 支持图像分析、OCR、文案创作
  • 交互式对话功能
  • Python SDK 集成

贡献指南

欢迎提交问题和改进建议!

  1. Fork 项目
  2. 创建特性分支
  3. 提交更改
  4. 推送到分支
  5. 创建 Pull Request

许可证

MIT License