{"skill":{"slug":"03","displayName":"03 图像识别","summary":"安全的图片识别工具，支持本地和API两种模式","description":"---\nname: \"vision-ai\"\nversion: \"1.0.0\"\ndescription: \"安全的图片识别工具，支持本地和API两种模式\"\nauthor: \"AI Skills Team\"\ntags: [\"图像识别\", \"视觉\", \"AI\", \"OpenAI\", \"Claude\"]\nrequires: []\n---\n\n# AI视觉识别技能\n\n安全的图片识别工具，支持本地模式和API模式（GPT-4o/Claude），保护隐私。\n\n## 技能描述\n\n提供图片内容识别、描述和分析功能。支持API模式（使用OpenAI或Claude）获得高准确度，或本地模式（无需API）保护隐私。\n\n## 使用场景\n\n- 用户：\"描述这张图片的内容\" → 分析图片并返回描述\n- 用户：\"这张图片里有什么物体？\" → 识别图片中的物体\n- 用户：\"分析这张截图\" → 提取图片中的文字和界面信息\n- 用户：\"批量分析这些图片\" → 处理多张图片\n\n## 工具和依赖\n\n### 工具列表\n\n- `scripts/vision_ai.py`：核心视觉识别模块\n\n### API密钥\n\n**可选（API模式）**：\n- `OPENAI_API_KEY`：OpenAI API密钥（GPT-4o）\n- `ANTHROPIC_API_KEY`：Anthropic API密钥（Claude）\n\n### 外部依赖\n\n**API模式（推荐）**：\n- Python 3.7+\n- openai 或 anthropic\n\n**本地模式**：\n- Python 3.7+\n- torch（PyTorch）\n- transformers\n- Pillow\n\n## 配置说明\n\n### 环境变量\n\n```bash\n# API模式（推荐）\nexport OPENAI_API_KEY=\"sk-xxx\"\n# 或\nexport ANTHROPIC_API_KEY=\"sk-ant-xxx\"\n```\n\n### 支持的图片格式\n\n- JPEG (.jpg, .jpeg)\n- PNG (.png)\n- WebP (.webp)\n- GIF (.gif)\n- 最大文件大小：10MB\n\n## 使用示例\n\n### 基本用法\n\n```python\nfrom vision_ai import VisionAI\n\n# API模式（推荐）\nvision = VisionAI(mode=\"api\")\nresult = vision.analyze(\"photo.jpg\", \"描述图片中的物体\")\n\n# 本地模式（无需API）\nvision = VisionAI(mode=\"local\")\nresult = vision.analyze(\"photo.jpg\")\n\n# 批量分析\nresults = vision.batch_analyze(\"./images\")\n```\n\n### 场景1：描述图片内容\n\n用户：\"这张图片里有什么？\"\n\nAI：\n```python\nvision = VisionAI(mode=\"api\")\nresult = vision.analyze(\"photo.jpg\", \"描述图片内容\")\n# 返回：图片包含一只在草地上奔跑的金色犬...\n```\n\n### 场景2：识别图片中的文字\n\n用户：\"提取这张截图中的文字\"\n\nAI：\n```python\nresult = vision.analyze(\"screenshot.png\", \"提取图片中的所有文字\")\n# 返回：识别出的文字内容\n```\n\n### 场景3：批量分析\n\n用户：\"分析images文件夹里的所有图片\"\n\nAI：\n```python\nresults = vision.batch_analyze(\"./images\")\n# 返回：每张图片的分析结果\n```\n\n## 故障排除\n\n### 问题1：API模式调用失败\n\n**现象**：返回API错误\n\n**解决**：\n1. 检查API密钥是否正确\n2. 确认API配额充足\n3. 检查网络连接\n4. 验证图片格式和大小\n\n### 问题2：本地模式首次运行慢\n\n**现象**：第一次分析图片很慢\n\n**解决**：\n- 首次运行需要下载模型（约500MB）\n- 确保网络畅通\n- 下载完成后会缓存，后续速度正常\n\n### 问题3：图片格式不支持\n\n**现象**：提示文件格式错误\n\n**解决**：\n- 确认文件是JPG/PNG/WebP/GIF格式\n- 检查文件大小不超过10MB\n- 尝试转换图片格式\n\n## 性能对比\n\n| 模式 | 准确度 | 速度 | 成本 | 隐私 |\n|------|--------|------|------|------|\n| API模式 | ⭐⭐⭐⭐⭐ | 快 | 按量计费 | 需上传 |\n| 本地模式 | ⭐⭐⭐ | 慢 | 免费 | 完全本地 |\n\n## 注意事项\n\n1. **敏感图片**：建议使用本地模式，保护隐私\n2. **API配额**：API模式按使用量计费，注意控制成本\n3. **批量处理**：注意API速率限制\n4. **模型下载**：本地模式首次运行需要下载模型\n","topics":["视觉","Claude","OpenAI","图像识别","安全"],"tags":{"latest":"1.0.0"},"stats":{"comments":0,"downloads":728,"installsAllTime":27,"installsCurrent":1,"stars":0,"versions":1},"createdAt":1773577782719,"updatedAt":1778491925219},"latestVersion":{"version":"1.0.0","createdAt":1773577782719,"changelog":"vision-ai 1.0.0 初始版本发布\n\n- 提供安全的图片识别，支持本地模式和API模式（OpenAI GPT-4o/Claude）\n- 支持图片内容描述、物体识别、文字提取与批量分析\n- 本地模式无需API，保护用户隐私\n- 支持常见图片格式（JPG/PNG/WebP/GIF），单图最大10MB\n- 提供详细配置、依赖说明和使用示例","license":"MIT-0"},"metadata":{"setup":[],"os":null,"systems":null},"owner":{"handle":"nidhov01","userId":"s171xfx50a1qtzwd3qx6shehen8841p1","displayName":"nidhov01","image":"https://avatars.githubusercontent.com/u/235751867?v=4"},"moderation":{"isSuspicious":false,"isMalwareBlocked":false,"verdict":"clean","reasonCodes":["review.llm_review"],"summary":"Review: review.llm_review","engineVersion":"v2.4.24","updatedAt":1780089896826}}