Bluefocus Model Routing

Automation

蓝标场景下不同任务类型 → 推荐模型的实战路由策略，用于在主 session、子 agent、cron 任务里**节省 token 成本 + 加快执行速度**。覆盖 6 大任务类型（长文档/中文生成/编程 Agent/对话/分析/超低成本子任务），每条都给具体模型别名 + 真实失败案例 + 成本对比。触发：选模型 / 用什么模型 / model 选择 / 子 agent 模型 / cron 模型 / 哪个模型便宜 / 节省 token / 加速执行 / 路由策略 / 模型成本。**适用对象**：所有蓝标龙虾（业务侧、产研侧、cron 自动化）。在执行任何"会调用 LLM"的任务前先读这份 skill，再决定用哪个模型；不要无脑用主 session 默认模型把成本翻 10 倍。NOT for：不需要选模型的纯工具调用任务、单次轻量回复（用默认就行）。

Install

openclaw skills install bluefocus-model-routing

蓝标龙虾模型路由策略

执行任务前先停 5 秒想一下：这个任务用默认模型，是不是在浪费钱?

决策树（30 秒看完）

任务来了
  │
  ├─ 是不是纯工具调用 / 一句话回复? ─→ 用主 session 默认（不用挑）
  │
  ├─ 要写 / 改代码 / 调试 bug? ─→ gpt5.5
  │
  ├─ 要处理长文档 (>50K tokens) / 中文长文生成? ─→ v4pro
  │
  ├─ 子 agent 跑写文件 / 整理 / 摘要轻量任务? ─→ v4flash
  │
  ├─ 要深度分析 / 复杂推理 / 战略规划? ─→ v4pro 或 opus（看预算）
  │
  └─ 默认对话 / 日常流程 ─→ sonnet（主 session 默认）

完整路由表

任务类型	推荐模型	别名	为什么
长文档处理、中文内容生成、成本敏感任务	`openai-compat/DeepSeek-V4-Pro`	`v4pro`	1M 上下文，中文最强，成本是 gpt5.5 的 1/100
轻量快速任务、初稿、摘要、子 agent 写文件	`openai-compat/DeepSeek-V4-Flash`	`v4flash`	速度快，成本极低
Agent 执行、编程、复杂工具调用	`openai-compat/gpt-5.5`	`gpt5.5`	Terminal-Bench 82.7%，编程 / Agent benchmark 最强
实时对话、日常流程任务、主 session 默认	`anthropic/claude-sonnet-4-6`	`sonnet`	响应快、成本居中，日常情境最平衡
复杂推理、深度分析、需要最强 Claude 时	`anthropic/claude-opus-4-6-v1`	`opus`	分析质量最高，成本也最高；Agent 任务用 gpt5.5 更强
子 agent 超低成本兜底	`openai-fallback/DeepSeek-V3.2`	—	极低成本，能跑就行的场景

子 agent 选模型原则

子 agent 是省钱重灾区——主 session 用 opus，子 agent 也跟着 opus，10 倍浪费。

子 agent 任务	推荐	反例
写文件 / 整理内容	`v4flash`	用 opus 写一篇日报 → 浪费
编程 / 调试	`gpt5.5`	用 opus 写代码 → benchmark 都不如 gpt5.5
分析 / 规划	`v4pro`	用 opus 分析长文档 → 上下文不够还更贵
多平台数据抓取 / 长流程	`v4pro`（1800s timeout）	用 gpt5.5 → rate limit 会挨
轻量任务（<1 分钟）	`v4flash`	用 sonnet → 没必要

Cron 任务选模型原则

cron 的成本会重复计费——每天 5 次 × 30 天 = 150 次，模型贵 10 倍 → 月成本贵 10 倍。

Cron 类型	推荐	备注
每日早报 / 内容简报	`v4pro`	1M 上下文吃多平台数据 + 中文输出
状态监控 / 用量告警	`v4flash` 或 systemEvent 直接跑脚本	不需要 LLM 时别用 LLM
每日总结 / harness 自动 PR	`v4flash`	走分类 + 脱敏，不需要强模型
高频心跳触发	跳过 LLM，用脚本判断	心跳走脚本，触发条件满足再用 LLM

真实失败案例

案例 1：宁德海外早报第一次 rate limit（2026-05-12）

错误：cron 用 gpt-5.5，3.5 分钟挨 rate limit
原因：多平台抓取 + 长文生成两件事都给 gpt5.5 干，触发 token / RPM 限流
修复：换 v4pro + timeout 1800s，12.5 分钟跑完
教训：长流程多平台任务首选 v4pro，不是 gpt5.5

案例 2：子 agent 全用 opus（早期）

错误：所有子 agent 都默认用 claude-opus
后果：成本 10x 浪费在不需要的地方（写文件、整理日志这种 v4flash 一秒搞定的事）
修复：建立分类决策——写文件 → v4flash / 编程 → gpt5.5 / 分析 → v4pro / 默认 → sonnet

案例 3：超时压太短（2026-05-12 海外早报第三次）

错误：怕花钱把 cron timeout 压到 600s
后果：模型还没干完就被砍，brief 不落盘直接当聊天回复发出去
修复：多平台抓取任务 timeout ≥ 1800s，配合 v4pro 价格不会爆
教训：timeout 不要为了省成本而压短，v4pro 跑 30 分钟也比 gpt5.5 跑 5 分钟便宜

案例 4：cron 错误告警把群炸了

错误：cron failureAlert 默认 announce 到任务投递的同一个群
后果：连续失败 → 群里疯狂报错刷屏
修复：failureAlert 路径改私聊 webchat / DM，不要和投递目标共用

主 session 模型何时切换

主 session 默认 sonnet（日常对话最平衡），但碰到下面情境主动切：

情境	切到	怎么切
长文档审阅 / 长上下文回顾	`v4pro`	`/model v4pro`
复杂代码 / 大段重构	`gpt5.5`	`/model gpt5.5`
战略规划 / 客户分析	`opus`	`/model opus`（注意贵）
切回日常	`default`	`/model default`

切完干完事记得切回默认，否则 opus 一直挂着烧钱。

选错模型的成本/速度损失估算

以处理一份 30K tokens 文档生成 5K tokens 报告为例：

选择	输入成本	输出成本	总价	速度
✅ v4pro（最优）	$0.008	$0.001	$0.01	30s
⚠️ sonnet（一般）	$0.09	$0.075	$0.17	25s
❌ opus（浪费）	$0.45	$0.375	$0.83	35s
❌❌ gpt5.5（最差）	$0.075	$0.15	$0.23	rate limit 风险

v4pro vs opus：80 倍差距。一个月 100 次这种任务 → 省 $82。整个团队全跑 → 省 $几千/月。

红线

❌ 不要无脑跟主 session 默认 —— 子 agent 单独挑模型
❌ 不要为省成本压超时 —— 反而失败重跑更贵
❌ opus / gpt5.5 不是越贵越好 —— Agent 任务 gpt5.5 > opus，长文中文 v4pro > opus
❌ cron 任务别忘 timeout 配套 —— 模型选了便宜的，timeout 也要给够
✅ 任务前先停一下 —— 看决策树 30 秒，比改 prompt 重跑省事

配套使用

catl-harness-pr —— 这份策略沉淀进 harness 仓的入口
任何子 agent 任务 —— 在 sessions_spawn 的 model 参数里指定别名
任何 cron 任务 —— 在 cron payload 的 model 参数里指定别名

CHANGELOG

v0.1.0 (2026-05-25)

初始发布
6 类任务路由表 + 4 个真实失败案例
子 agent / cron / 主 session 三场景细分
成本对比示例