Install
openclaw skills install model-benchmark深度测评各模型在 OpenClaw 上的实际表现,支持中文理解/代码/推理/工具调用多维度评估。
openclaw skills install model-benchmark创建:2026-03-23 目标:深度测评各模型在 OpenClaw 上的实际表现
| 模型 | Provider | 状态 | 优先级 |
|---|---|---|---|
| MiniMax Auto | minimax | ✅已测 | — |
| GLM-5 | 智谱/百炼 | 🔜待测 | P1 |
| Qwen3-235B-A22B | 百炼(MoE,235B参数) | 🔜待测 | P1 |
| Claude Opus 4 (thinking-medium) | anthropic-via-proxy | 🔜待测 | P1 |
| DeepSeek R1 | 待确认 | 🔜待测 | P2 |
| GPT-4o | OpenAI | 待确认 | P2 |
| 维度 | 权重 | 测试内容 |
|---|---|---|
| 中文理解 | 25% | 解释复杂概念,用小学生能懂的话 |
| 代码能力 | 25% | Python实现,简洁可运行 |
| 工具调用 | 20% | 解释工具调用对Agent的重要性 |
| 复杂推理 | 20% | 多步骤逻辑推理题 |
| 响应速度 | 10% | 从发题到返回的时间 |
请用一段不超过100字的话,解释"量子纠缠",要求:小学生能看懂,且有一定文采。
评分标准:
写一个Python函数,判断一个字符串是否是回文,要求代码简洁、注释清晰、可直接运行。
评分标准:
解释为什么"工具调用能力"对AI Agent至关重要?要求结合实际场景,不超过150字。
评分标准:
张三比李四大3岁。李四比王五小2岁。王五20岁。问:三人年龄之和是多少?
评分标准:
# 模型测评报告:{模型名}
日期:YYYY-MM-DD
## 总分:X/10
## 各维度得分
| 维度 | 得分 | 评语 |
|------|------|------|
| 中文理解 | X/10 | ... |
| 代码能力 | X/10 | ... |
| 工具调用 | X/10 | ... |
| 复杂推理 | X/10 | ... |
| 响应速度 | X/10 | ... |
## 亮点
-
## 不足
-
## 结论
-