---
name: bluefocus-model-routing
version: 0.1.0
description: 蓝标场景下不同任务类型 → 推荐模型的实战路由策略，用于在主 session、子 agent、cron 任务里**节省 token 成本 + 加快执行速度**。覆盖 6 大任务类型（长文档/中文生成/编程 Agent/对话/分析/超低成本子任务），每条都给具体模型别名 + 真实失败案例 + 成本对比。触发：选模型 / 用什么模型 / model 选择 / 子 agent 模型 / cron 模型 / 哪个模型便宜 / 节省 token / 加速执行 / 路由策略 / 模型成本。**适用对象**：所有蓝标龙虾（业务侧、产研侧、cron 自动化）。在执行任何"会调用 LLM"的任务前先读这份 skill，再决定用哪个模型；不要无脑用主 session 默认模型把成本翻 10 倍。NOT for：不需要选模型的纯工具调用任务、单次轻量回复（用默认就行）。
---

# 蓝标龙虾模型路由策略

执行任务前先停 5 秒想一下：**这个任务用默认模型，是不是在浪费钱?**

## 决策树（30 秒看完）

```
任务来了
  │
  ├─ 是不是纯工具调用 / 一句话回复? ─→ 用主 session 默认（不用挑）
  │
  ├─ 要写 / 改代码 / 调试 bug? ─→ gpt5.5
  │
  ├─ 要处理长文档 (>50K tokens) / 中文长文生成? ─→ v4pro
  │
  ├─ 子 agent 跑写文件 / 整理 / 摘要轻量任务? ─→ v4flash
  │
  ├─ 要深度分析 / 复杂推理 / 战略规划? ─→ v4pro 或 opus（看预算）
  │
  └─ 默认对话 / 日常流程 ─→ sonnet（主 session 默认）
```

## 完整路由表

| 任务类型 | 推荐模型 | 别名 | 为什么 |
|---|---|---|---|
| 长文档处理、中文内容生成、成本敏感任务 | `openai-compat/DeepSeek-V4-Pro` | `v4pro` | 1M 上下文，中文最强，成本是 gpt5.5 的 1/100 |
| 轻量快速任务、初稿、摘要、子 agent 写文件 | `openai-compat/DeepSeek-V4-Flash` | `v4flash` | 速度快，成本极低 |
| Agent 执行、编程、复杂工具调用 | `openai-compat/gpt-5.5` | `gpt5.5` | Terminal-Bench 82.7%，编程 / Agent benchmark 最强 |
| 实时对话、日常流程任务、主 session 默认 | `anthropic/claude-sonnet-4-6` | `sonnet` | 响应快、成本居中，日常情境最平衡 |
| 复杂推理、深度分析、需要最强 Claude 时 | `anthropic/claude-opus-4-6-v1` | `opus` | 分析质量最高，成本也最高；**Agent 任务用 gpt5.5 更强** |
| 子 agent 超低成本兜底 | `openai-fallback/DeepSeek-V3.2` | — | 极低成本，能跑就行的场景 |

## 子 agent 选模型原则

子 agent 是省钱重灾区——主 session 用 opus，子 agent 也跟着 opus，10 倍浪费。

| 子 agent 任务 | 推荐 | 反例 |
|---|---|---|
| 写文件 / 整理内容 | `v4flash` | 用 opus 写一篇日报 → 浪费 |
| 编程 / 调试 | `gpt5.5` | 用 opus 写代码 → benchmark 都不如 gpt5.5 |
| 分析 / 规划 | `v4pro` | 用 opus 分析长文档 → 上下文不够还更贵 |
| 多平台数据抓取 / 长流程 | `v4pro`（1800s timeout） | 用 gpt5.5 → rate limit 会挨 |
| 轻量任务（<1 分钟） | `v4flash` | 用 sonnet → 没必要 |

## Cron 任务选模型原则

cron 的成本会**重复计费**——每天 5 次 × 30 天 = 150 次，模型贵 10 倍 → 月成本贵 10 倍。

| Cron 类型 | 推荐 | 备注 |
|---|---|---|
| 每日早报 / 内容简报 | `v4pro` | 1M 上下文吃多平台数据 + 中文输出 |
| 状态监控 / 用量告警 | `v4flash` 或 systemEvent 直接跑脚本 | 不需要 LLM 时别用 LLM |
| 每日总结 / harness 自动 PR | `v4flash` | 走分类 + 脱敏，不需要强模型 |
| 高频心跳触发 | 跳过 LLM，用脚本判断 | 心跳走脚本，触发条件满足再用 LLM |

## 真实失败案例

### 案例 1：宁德海外早报第一次 rate limit（2026-05-12）
- **错误**：cron 用 `gpt-5.5`，3.5 分钟挨 rate limit
- **原因**：多平台抓取 + 长文生成两件事都给 gpt5.5 干，触发 token / RPM 限流
- **修复**：换 `v4pro` + timeout 1800s，12.5 分钟跑完
- **教训**：长流程多平台任务首选 v4pro，不是 gpt5.5

### 案例 2：子 agent 全用 opus（早期）
- **错误**：所有子 agent 都默认用 claude-opus
- **后果**：成本 10x 浪费在不需要的地方（写文件、整理日志这种 v4flash 一秒搞定的事）
- **修复**：建立分类决策——写文件 → v4flash / 编程 → gpt5.5 / 分析 → v4pro / 默认 → sonnet

### 案例 3：超时压太短（2026-05-12 海外早报第三次）
- **错误**：怕花钱把 cron timeout 压到 600s
- **后果**：模型还没干完就被砍，brief 不落盘直接当聊天回复发出去
- **修复**：多平台抓取任务 timeout ≥ 1800s，配合 v4pro 价格不会爆
- **教训**：timeout 不要为了省成本而压短，v4pro 跑 30 分钟也比 gpt5.5 跑 5 分钟便宜

### 案例 4：cron 错误告警把群炸了
- **错误**：cron failureAlert 默认 `announce` 到任务投递的同一个群
- **后果**：连续失败 → 群里疯狂报错刷屏
- **修复**：failureAlert 路径改私聊 webchat / DM，不要和投递目标共用

## 主 session 模型何时切换

主 session 默认 `sonnet`（日常对话最平衡），但碰到下面情境**主动切**：

| 情境 | 切到 | 怎么切 |
|---|---|---|
| 长文档审阅 / 长上下文回顾 | `v4pro` | `/model v4pro` |
| 复杂代码 / 大段重构 | `gpt5.5` | `/model gpt5.5` |
| 战略规划 / 客户分析 | `opus` | `/model opus`（注意贵） |
| 切回日常 | `default` | `/model default` |

切完干完事**记得切回默认**，否则 opus 一直挂着烧钱。

## 选错模型的成本/速度损失估算

以处理一份 30K tokens 文档生成 5K tokens 报告为例：

| 选择 | 输入成本 | 输出成本 | 总价 | 速度 |
|---|---|---|---|---|
| ✅ v4pro（最优） | $0.008 | $0.001 | $0.01 | 30s |
| ⚠️ sonnet（一般） | $0.09 | $0.075 | $0.17 | 25s |
| ❌ opus（浪费） | $0.45 | $0.375 | $0.83 | 35s |
| ❌❌ gpt5.5（最差） | $0.075 | $0.15 | $0.23 | rate limit 风险 |

**v4pro vs opus**：80 倍差距。一个月 100 次这种任务 → 省 $82。整个团队全跑 → 省 $几千/月。

## 红线

- ❌ **不要无脑跟主 session 默认** —— 子 agent 单独挑模型
- ❌ **不要为省成本压超时** —— 反而失败重跑更贵
- ❌ **opus / gpt5.5 不是越贵越好** —— Agent 任务 gpt5.5 > opus，长文中文 v4pro > opus
- ❌ **cron 任务别忘 timeout 配套** —— 模型选了便宜的，timeout 也要给够
- ✅ **任务前先停一下** —— 看决策树 30 秒，比改 prompt 重跑省事

## 配套使用

- **catl-harness-pr** —— 这份策略沉淀进 harness 仓的入口
- **任何子 agent 任务** —— 在 `sessions_spawn` 的 `model` 参数里指定别名
- **任何 cron 任务** —— 在 cron payload 的 `model` 参数里指定别名

## CHANGELOG

### v0.1.0 (2026-05-25)

- 初始发布
- 6 类任务路由表 + 4 个真实失败案例
- 子 agent / cron / 主 session 三场景细分
- 成本对比示例
