大模型工具
该 Skill 集成了 的 大模型,提供强大的多模态 AI 能力,包括图像理解、OCR 文字提取、智能文案创作等功能。
功能特性
- 图像分析与理解:深度理解图片内容、场景、物体和情感
- OCR 文字提取:从图片中精准提取文字、表格、文档内容
- 文案创作:根据图片或需求生成营销文案、描述文本、社交媒体内容
- 多模态对话:支持图像和文本的交互式智能对话
- 文档解析:解析复杂文档、图表、截图等内容
- 智能问答:基于图片内容的智能问答系统
触发词
当用户提到以下内容时,应触发此 Skill:
- "使用 分析图片"
- "用 分析"
- "文案创作"
- "图像理解"
- "提取图片文字"
- "分析照片内容"
- "生成营销文案"
- "多模态对话"
- "OCR 识别"
API 配置
获取 API Key
- 访问 官网
- 创建账户并登录
- 在控制台中生成 API Key
- 将 API Key 保存到环境变量:``
认证方式
所有 API 请求需要在 Authorization header 中包含 API Key:
Authorization: Bearer YOUR_API_KEY
可用模型
- ****: 基础模型,8K 上下文
- ****: 扩展模型,32K 上下文
- ****: 大上下文模型,128K 上下文(推荐用于长文档处理)
核心功能
1. 图像分析
分析图片内容,识别物体、场景、情感等。
功能特点:
- 精准��别图片中的物体和场景
- 理解图片的情感和氛围
- 提供详细的内容描述
- 支持多张图片的批量分析
2. OCR 文字提取
从图片中提取文字、表格、文档内容。
功能特点:
- 高精度文字识别
- 支持中英文混合识别
- 保留文档结构和格式
- 表格数据提取和结构化
3. 文案创作
根据图片或需求生成各类文案。
功能特点:
- 产品描述文案
- 营销广告文案
- 社交媒体内容
- 品牌故事创作
4. 多模态对话
支持图像和文本的交互式对话。
功能特点:
- 多轮对话上下文理解
- 图像+文本混合输入
- 智能问答和建议
- 个性化对话风格
使用示例
示例 1: 分析产品图片
from
client = (api_key="your_api_key")
# 分析产品图片
result = client.analyze_image(
image_path="product.jpg",
prompt="详细分析这张产品图片,包括产品特点、适用场景、目标用户群体等"
)
print(result)
示例 2: OCR 提取文档
# 提取文档文字
result = client.extract_text(
image_path="document.png",
output_format="structured" # 可选: "text", "structured", "json"
)
print(result)
示例 3: 生成营销文案
# 根据产品图片生成文案
copywriting = client.generate_copywriting(
image_path="product.jpg",
style="inspiring", # 可选: "professional", "casual", "creative", "inspiring"
platform="wechat" # 可选: "wechat", "weibo", "xiaohongshu", "douyin"
)
print(copywriting)
示例 4: 多轮对话
# 开始多模态对话
conversation = client.create_conversation()
# 第一轮:发送图片
response1 = conversation.chat(
message="请分析这张图片",
image="screenshot.jpg"
)
# 第二轮:追问
response2 = conversation.chat(
message="基于上面的分析,给出优化建议"
)
API 参数说明
图像分析参数
image_path (string): 图片文件路径
prompt (string): 分析提示词
model (string, 可选): 使用的模型,默认 ""
temperature (float, 可选): 创造性程度,0-1,默认 0.7
max_tokens (int, 可选): 最大输出长度,默认 1024
OCR 参数
image_path (string): 图片文件路径
output_format (string, 可选): 输出格式,"text"/"structured"/"json"
language (string, 可选): 语言设置,"auto"/"zh"/"en"
文案创作参数
image_path (string): 图片文件路径(可选)
prompt (string): 创作要求
style (string): 文案风格
platform (string): 目标平台
length (string): 文案长度,"short"/"medium"/"long"
最佳实践
提示词编写
图像分析提示词:
"请详细分析这张图片,包括:
1. 主要内容和主题
2. 视觉元素和构图
3. 色彩搭配和风格
4. 情感氛围和传达的信息
5. 适用场景和目标受众"
OCR 提示词:
"请提取图片中的所有文字内容,并保持原有的结构和格式。
如果是表格,请用 Markdown 表格格式输出。"
文案创作提示词:
"根据这张产品图片,创作一段吸引人的营销文案。
要求:简洁有力,突出产品卖点,适合在微信朋友圈发布。
目标用户:25-35岁的都市白领。"
错误处理
- 检查 API Key 是否有效
- 验证图片文件格式和大小
- 处理网络超时和重试逻辑
- 监控 API 配额使用情况
性能优化
- 图片预处理:压缩和格式转换
- 批量请求合并处理
- 结果缓存机制
- 异步任务处理
定价信息
- 免费试用: 新用户赠送免费额度
- 按量付费: 根据实际使用量计费
- 套餐包: 多种套餐包可选
- 企业定制: 企业级解决方案
具体价格请参考官网:https://platform./pricing
支持与资源
常见问题
Q: 支持哪些图片格式?
A: 支持 PNG、JPG、JPEG、WEBP 等常见格式。建议使用 PNG 或 JPG 格式以获得最佳效果。
Q: 图片大小限制?
A: 单张图片建议不超过 10MB。对于高清图片,建议先进行压缩。
Q: OCR 识别准确率如何?
A: 在中文识别方面表现优秀,准确率可达 95% 以上。手写文字识别需要图片清晰度较高。
Q: 可以同时处理多张图片吗?
A: 支持多图输入,最多可同时处理 10 张图片。
Q: 文案创作支持哪些风格?
A: 支持多种风格:专业、轻松、创意、激励等,也可以自定义风格。
Q: 如何处理敏感内容?
A: 系统会自动过滤敏感内容,请确保输入内容符合法律法规和平台规范。
注意事项
⚠️ 安全提醒:
- 永远不要在客户端代码中暴露 API Key
- 使用环境变量或配置文件管理密钥
- 定期轮换 API Key
- 监控 API 使用情况
📋 使用限制:
- 遵守 服务条款
- 尊重知识产权和版权
- 不得用于非法用途
- 不得生成虚假或误导性内容
🔒 隐私保护:
- 图片内容不会被用于模型训练
- 传输过程采用加密
- 数据不会存储在服务器上
技术架构
┌─────────────────┐
│ 用户界面 │
│ (CLI/SDK/API) │
└────────┬────────┘
│
┌────────▼────────┐
│ │
│ 核心处理层 │
└────────┬────────┘
│
┌────────▼────────┐
│ │
│ 多模态模型 │
└─────────────────┘
更新日志
v1.0.0 (2025-03-25)
- 初始版本发布
- 支持图像分析、OCR、文案创作
- 交互式对话功能
- Python SDK 集成
贡献指南
欢迎提交问题和改进建议!
- Fork 项目
- 创建特性分支
- 提交更改
- 推送到分支
- 创建 Pull Request
许可证
MIT License