# 模型能力画像

详细记录各代码大模型在编程任务上的能力评估和适用场景。

---

## 模型对比总览

| 模型 | 代码生成 | 代码审查 | Bug 调试 | 性能优化 | 重构 | 单元测试 | 技术问答 | 文档 | 速度 | 成本 |
|------|---------|---------|---------|---------|------|---------|---------|------|------|------|
| **qwen-coder-plus** | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | 中 | 中 |
| **qwen-max** | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | 慢 | 高 |
| **qwen-plus** | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 中 | 低 |
| **qwen-turbo** | ⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 快 | 低 |
| **deepseek-coder** | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐ | 中 | 中 |
| **glm-4** | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | 中 | 中 |
| **claude-sonnet** | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 中 | 高 |

---

## 详细模型档案

### 🎯 Qwen-Coder-Plus

**定位：** 代码生成专家

**优势场景：**
- ✅ 复杂算法实现（排序、搜索、动态规划）
- ✅ 业务逻辑代码生成
- ✅ 性能优化建议
- ✅ 单元测试生成
- ✅ 多语言支持（Python/JS/Java/Go/C++）

**劣势场景：**
- ❌ 系统架构设计（深度不足）
- ❌ 代码审查（可能遗漏边缘情况）

**最佳实践：**
```python
# 推荐用法：直接要求生成代码
"用 Python 实现一个线程安全的 LRU 缓存"
"生成一个 React 组件，支持虚拟滚动和懒加载"

# 配合参数
temperature=0.3  # 降低随机性，提高代码稳定性
max_tokens=4096  # 给予足够的输出空间
```

**性能指标：**
- 代码生成准确率：~92%
- 单元测试覆盖率：~85%
- 平均响应时间：2-4 秒
- 上下文利用率：高

---

### 🧠 Qwen-Max

**定位：** 系统设计与审查专家

**优势场景：**
- ✅ 系统架构设计
- ✅ 代码审查与质量评估
- ✅ 重构方案设计
- ✅ 技术选型建议
- ✅ 复杂问题分解

**劣势场景：**
- ❌ 简单代码生成（成本高）
- ❌ 快速迭代（速度慢）

**最佳实践：**
```python
# 推荐用法：要求深度分析
"审查这个模块的架构设计，指出潜在问题"
"设计一个支持百万并发的消息队列系统"
"评估这两种技术方案的优劣"

# 配合思维链
thinking_level="high"  # 启用深度思考
```

**性能指标：**
- 架构设计合理性：~95%
- 代码审查问题发现率：~88%
- 平均响应时间：8-15 秒
- 上下文利用率：极高

---

### ⚡ Qwen-Plus

**定位：** 全能型性价比之选

**优势场景：**
- ✅ 日常编程任务
- ✅ Bug 调试与定位
- ✅ 技术问答
- ✅ 代码解释
- ✅ 中小规模代码生成

**劣势场景：**
- ❌ 超复杂系统设计
- ❌ 极高代码质量要求

**最佳实践：**
```python
# 推荐用法：日常任务首选
"帮我看看这个函数为什么返回空值"
"解释一下这段正则表达式的含义"
"写一个函数解析 JSON 并提取指定字段"

# 经济模式
temperature=0.5  # 平衡创造性和稳定性
```

**性能指标：**
- 综合任务完成率：~87%
- Bug 定位准确率：~82%
- 平均响应时间：3-5 秒
- 性价比：最优

---

### 🚀 Qwen-Turbo

**定位：** 速度优先的轻量级选择

**优势场景：**
- ✅ 简单代码片段生成
- ✅ 文档和注释编写
- ✅ 快速原型验证
- ✅ 代码解释
- ✅ 批量简单任务

**劣势场景：**
- ❌ 复杂逻辑实现
- ❌ 代码质量要求高的场景

**最佳实践：**
```python
# 推荐用法：速度敏感任务
"给这个函数写个 docstring"
"生成 5 个类似的工具函数"
"把这段代码注释翻译成中文"

# 批量处理
batch_mode=True  # 批量处理降低成本
```

**性能指标：**
- 简单任务完成率：~80%
- 平均响应时间：0.5-1.5 秒
- 成本：最低
- 适用场景：~60% 的日常任务

---

### 💻 DeepSeek-Coder

**定位：** 代码生成与测试专家

**优势场景：**
- ✅ 高质量代码生成
- ✅ 单元测试生成
- ✅ 代码补全
- ✅ 多语言支持
- ✅ 算法竞赛题

**劣势场景：**
- ❌ 系统架构
- ❌ 业务逻辑理解

**最佳实践：**
```python
# 推荐用法：代码和测试
"为这个类生成完整的单元测试"
"用 Rust 实现一个高性能的哈希表"
"解决 LeetCode 第 146 题"

# 测试生成
include_edge_cases=True  # 包含边界情况
```

**性能指标：**
- 代码生成质量：~93%
- 测试用例生成质量：~90%
- 平均响应时间：3-6 秒
- 算法题解决率：~88%

---

### 🔍 GLM-4

**定位：** 推理与调试专家

**优势场景：**
- ✅ Bug 调试与定位
- ✅ 复杂问题推理
- ✅ 技术问答
- ✅ 代码审查
- ✅ 超长上下文处理

**劣势场景：**
- ❌ 创意性代码生成
- ❌ 性能优化

**最佳实践：**
```python
# 推荐用法：推理和调试
"分析这个分布式系统的死锁原因"
"为什么这个并发程序会出现竞态条件"
"解释 Transformer 的注意力机制"

# 长上下文
context_window=128000  # 利用大窗口优势
```

**性能指标：**
- Bug 定位准确率：~89%
- 技术问答准确率：~91%
- 平均响应时间：4-7 秒
- 最大上下文：128K

---

### 🎨 Claude-Sonnet

**定位：** 代码质量与重构专家

**优势场景：**
- ✅ 代码审查
- ✅ 重构设计
- ✅ 架构评审
- ✅ 代码质量提升
- ✅ 设计模式应用

**劣势场景：**
- ❌ 快速原型
- ❌ 成本敏感任务

**最佳实践：**
```python
# 推荐用法：质量优先
"审查这段代码的安全隐患"
"设计一个重构方案，提高可维护性"
"评估这个 API 设计的 RESTful 程度"

# 质量模式
quality_focus=True  # 关注代码质量
```

**性能指标：**
- 代码审查质量：~94%
- 重构方案合理性：~92%
- 平均响应时间：5-8 秒
- 设计模式识别率：~96%

---

## 选择决策树

```
开始
│
├─ 需要生成代码？
│   ├─ 复杂算法/业务逻辑 → qwen-coder-plus
│   ├─ 单元测试 → deepseek-coder
│   └─ 简单片段 → qwen-turbo
│
├─ 需要审查/重构？
│   ├─ 质量优先 → claude-sonnet
│   ├─ 架构层面 → qwen-max
│   └─ 快速检查 → qwen-plus
│
├─ 需要调试？
│   ├─ 复杂推理 → glm-4
│   └─ 一般问题 → qwen-plus
│
├─ 需要设计架构？
│   └─ qwen-max 或 claude-sonnet
│
├─ 需要写文档？
│   └─ qwen-turbo
│
└─ 技术问答？
    ├─ 深度问题 → glm-4
    └─ 一般问题 → qwen-plus
```

---

## 成本参考

| 模型 | 输入价格 | 输出价格 | 推荐任务预算 |
|------|---------|---------|-------------|
| qwen-turbo | ¥0.002/K | ¥0.006/K | ¥0.01-0.05 |
| qwen-plus | ¥0.004/K | ¥0.012/K | ¥0.05-0.20 |
| qwen-coder-plus | ¥0.008/K | ¥0.020/K | ¥0.10-0.50 |
| qwen-max | ¥0.020/K | ¥0.060/K | ¥0.50-2.00 |
| deepseek-coder | ¥0.005/K | ¥0.015/K | ¥0.05-0.30 |
| glm-4 | ¥0.010/K | ¥0.030/K | ¥0.10-0.50 |
| claude-sonnet | $0.003/K | $0.015/K | $0.05-0.50 |

---

## 更新记录

- **2026-03-18**: 初始版本，包含 7 个主流代码模型评估
- 后续根据实际使用反馈持续更新

---

*注：性能指标基于内部测试和公开基准，实际表现可能因任务而异。建议根据具体场景进行 A/B 测试。*