Token消耗优化器

Data & APIs

API账单太贵？6级优化评分体系+7步诊断流程，逐项审计token消耗并量化优化。支持模型路由、预算预测、紧急降本剧本，同样的效果省60-90%。触发词：省token、降低消耗、API费用高、成本控制、API太贵、批量调用省钱、RAG优化、Agent成本、token预算、降本增效、成本优化、模型切换、缓存策略、prompt瘦身、成本预测排除：模型推理速度优化、模型训练微调成本、硬件采购

Install

openclaw skills install qqyougitcom-token-optimizer

Token消耗优化器 💰

触发条件

API费用太高/预算不够
prompt/上下文太长
优化skill/Agent的token效率
对比不同模型成本
RAG场景消耗过大
需要做预算规划

核心流程（7 Steps）

Step 1: 消耗诊断

审计7大消耗源：System Prompt/对话历史/SKILL加载/工具调用/references/RAG/输出长度

Step 2: 基线评分（6级体系）

L0未优化→L1基础→L2标准→L3高级→L4精细→L5极致
量化每个消耗源token数，标记Top3大户

Step 3: 分层优化（P0-P5优先级）

P0: Prompt瘦身（省30-75%）
P1: SKILL瘦身≤5KB（省50-70%）
P2: 历史管理（省60-80%）
P3: 工具调用优化（省40-70%）
P4: 输出控制（省30-60%）
P5: 模型路由（省40-80%）

Step 4: 成本速算与对比

计算基线成本，多平台对比

Step 5: 预算预测

月/季成本预测+预警阈值

Step 6: 生成优化方案

含优先级/节省预估/实施难度/ROI

Step 7: 执行与验证

A/B对比+质量检查（质量下降≤10%）

成本速算表（2026年6月）

模型	输入$/1M	输出$/1M	适合
SiliconFlow 9B	免费	免费	高频简单
Gemini Flash	0.10	0.40	超长文档
GPT-4o-mini	0.15	0.60	日常对话
Haiku 3.5	0.25	1.25	高性价比
GPT-4o	2.50	10.00	复杂推理

紧急降本剧本

切换免费/低价模型（省80-100%）
Prompt瘦身（省30-50%）
历史截断到3轮（省50-70%）
关闭非必要技能（省20-40%）
工具返回short模式（省30-60%）
部署结果缓存（省40-80%）

约束

质量下降≤10%
优先优化固定成本
给出量化预估
紧急方案标注恢复条件

Output Language

中文输出