Bluefocus Model Routing

Automation

蓝标场景下不同任务类型 → 推荐模型的实战路由策略,用于在主 session、子 agent、cron 任务里**节省 token 成本 + 加快执行速度**。覆盖 6 大任务类型(长文档/中文生成/编程 Agent/对话/分析/超低成本子任务),每条都给具体模型别名 + 真实失败案例 + 成本对比。触发:选模型 / 用什么模型 / model 选择 / 子 agent 模型 / cron 模型 / 哪个模型便宜 / 节省 token / 加速执行 / 路由策略 / 模型成本。**适用对象**:所有蓝标龙虾(业务侧、产研侧、cron 自动化)。在执行任何"会调用 LLM"的任务前先读这份 skill,再决定用哪个模型;不要无脑用主 session 默认模型把成本翻 10 倍。NOT for:不需要选模型的纯工具调用任务、单次轻量回复(用默认就行)。

Install

openclaw skills install bluefocus-model-routing

蓝标龙虾模型路由策略

执行任务前先停 5 秒想一下:这个任务用默认模型,是不是在浪费钱?

决策树(30 秒看完)

任务来了
  │
  ├─ 是不是纯工具调用 / 一句话回复? ─→ 用主 session 默认(不用挑)
  │
  ├─ 要写 / 改代码 / 调试 bug? ─→ gpt5.5
  │
  ├─ 要处理长文档 (>50K tokens) / 中文长文生成? ─→ v4pro
  │
  ├─ 子 agent 跑写文件 / 整理 / 摘要轻量任务? ─→ v4flash
  │
  ├─ 要深度分析 / 复杂推理 / 战略规划? ─→ v4pro 或 opus(看预算)
  │
  └─ 默认对话 / 日常流程 ─→ sonnet(主 session 默认)

完整路由表

任务类型推荐模型别名为什么
长文档处理、中文内容生成、成本敏感任务openai-compat/DeepSeek-V4-Prov4pro1M 上下文,中文最强,成本是 gpt5.5 的 1/100
轻量快速任务、初稿、摘要、子 agent 写文件openai-compat/DeepSeek-V4-Flashv4flash速度快,成本极低
Agent 执行、编程、复杂工具调用openai-compat/gpt-5.5gpt5.5Terminal-Bench 82.7%,编程 / Agent benchmark 最强
实时对话、日常流程任务、主 session 默认anthropic/claude-sonnet-4-6sonnet响应快、成本居中,日常情境最平衡
复杂推理、深度分析、需要最强 Claude 时anthropic/claude-opus-4-6-v1opus分析质量最高,成本也最高;Agent 任务用 gpt5.5 更强
子 agent 超低成本兜底openai-fallback/DeepSeek-V3.2极低成本,能跑就行的场景

子 agent 选模型原则

子 agent 是省钱重灾区——主 session 用 opus,子 agent 也跟着 opus,10 倍浪费。

子 agent 任务推荐反例
写文件 / 整理内容v4flash用 opus 写一篇日报 → 浪费
编程 / 调试gpt5.5用 opus 写代码 → benchmark 都不如 gpt5.5
分析 / 规划v4pro用 opus 分析长文档 → 上下文不够还更贵
多平台数据抓取 / 长流程v4pro(1800s timeout)用 gpt5.5 → rate limit 会挨
轻量任务(<1 分钟)v4flash用 sonnet → 没必要

Cron 任务选模型原则

cron 的成本会重复计费——每天 5 次 × 30 天 = 150 次,模型贵 10 倍 → 月成本贵 10 倍。

Cron 类型推荐备注
每日早报 / 内容简报v4pro1M 上下文吃多平台数据 + 中文输出
状态监控 / 用量告警v4flash 或 systemEvent 直接跑脚本不需要 LLM 时别用 LLM
每日总结 / harness 自动 PRv4flash走分类 + 脱敏,不需要强模型
高频心跳触发跳过 LLM,用脚本判断心跳走脚本,触发条件满足再用 LLM

真实失败案例

案例 1:宁德海外早报第一次 rate limit(2026-05-12)

  • 错误:cron 用 gpt-5.5,3.5 分钟挨 rate limit
  • 原因:多平台抓取 + 长文生成两件事都给 gpt5.5 干,触发 token / RPM 限流
  • 修复:换 v4pro + timeout 1800s,12.5 分钟跑完
  • 教训:长流程多平台任务首选 v4pro,不是 gpt5.5

案例 2:子 agent 全用 opus(早期)

  • 错误:所有子 agent 都默认用 claude-opus
  • 后果:成本 10x 浪费在不需要的地方(写文件、整理日志这种 v4flash 一秒搞定的事)
  • 修复:建立分类决策——写文件 → v4flash / 编程 → gpt5.5 / 分析 → v4pro / 默认 → sonnet

案例 3:超时压太短(2026-05-12 海外早报第三次)

  • 错误:怕花钱把 cron timeout 压到 600s
  • 后果:模型还没干完就被砍,brief 不落盘直接当聊天回复发出去
  • 修复:多平台抓取任务 timeout ≥ 1800s,配合 v4pro 价格不会爆
  • 教训:timeout 不要为了省成本而压短,v4pro 跑 30 分钟也比 gpt5.5 跑 5 分钟便宜

案例 4:cron 错误告警把群炸了

  • 错误:cron failureAlert 默认 announce 到任务投递的同一个群
  • 后果:连续失败 → 群里疯狂报错刷屏
  • 修复:failureAlert 路径改私聊 webchat / DM,不要和投递目标共用

主 session 模型何时切换

主 session 默认 sonnet(日常对话最平衡),但碰到下面情境主动切

情境切到怎么切
长文档审阅 / 长上下文回顾v4pro/model v4pro
复杂代码 / 大段重构gpt5.5/model gpt5.5
战略规划 / 客户分析opus/model opus(注意贵)
切回日常default/model default

切完干完事记得切回默认,否则 opus 一直挂着烧钱。

选错模型的成本/速度损失估算

以处理一份 30K tokens 文档生成 5K tokens 报告为例:

选择输入成本输出成本总价速度
✅ v4pro(最优)$0.008$0.001$0.0130s
⚠️ sonnet(一般)$0.09$0.075$0.1725s
❌ opus(浪费)$0.45$0.375$0.8335s
❌❌ gpt5.5(最差)$0.075$0.15$0.23rate limit 风险

v4pro vs opus:80 倍差距。一个月 100 次这种任务 → 省 $82。整个团队全跑 → 省 $几千/月。

红线

  • 不要无脑跟主 session 默认 —— 子 agent 单独挑模型
  • 不要为省成本压超时 —— 反而失败重跑更贵
  • opus / gpt5.5 不是越贵越好 —— Agent 任务 gpt5.5 > opus,长文中文 v4pro > opus
  • cron 任务别忘 timeout 配套 —— 模型选了便宜的,timeout 也要给够
  • 任务前先停一下 —— 看决策树 30 秒,比改 prompt 重跑省事

配套使用

  • catl-harness-pr —— 这份策略沉淀进 harness 仓的入口
  • 任何子 agent 任务 —— 在 sessions_spawnmodel 参数里指定别名
  • 任何 cron 任务 —— 在 cron payload 的 model 参数里指定别名

CHANGELOG

v0.1.0 (2026-05-25)

  • 初始发布
  • 6 类任务路由表 + 4 个真实失败案例
  • 子 agent / cron / 主 session 三场景细分
  • 成本对比示例