ClawBrain Benchmark

测试你的 OpenClaw 在 205 个真实场景下的表现，对比 ClawBrain v1.0 编排引擎的提升效果

Install

openclaw skills install clawbrain-pro-benchmark

ClawBrain Benchmark

测试你的 AI 在 OpenClaw 中的真实表现。看看它做简单事行不行，做复杂事会不会掉链子。

使用方法

直接说"跑一下 benchmark"或"测试一下模型效果"。

测试什么

10 大类、205 个真实场景：

类别	测什么	为什么重要
文件操作	读、写、编辑文件	基本功
搜索	查资料、抓网页	日常需求
消息	微信、钉钉发消息	沟通协作
终端	跑命令、管服务	开发运维
多步任务	搜索→整理→保存→通知	真正做事的能力
错误恢复	出错了怎么办	靠不靠谱
模糊指令	"帮我准备下"	聪不聪明
视觉理解	看图、截图识别	多模态能力

评测结果（v1.0）

模型	综合	文件	搜索	终端	错误恢复	模糊指令	多步
ClawBrain Auto	90%	100%	100%	100%	100%	100%	80%
ClawBrain Pro	86%	100%	100%	100%	100%	100%	80%
单模型 A	83%	95%	100%	90%	80%	65%	73%
单模型 B	81%	85%	100%	90%	76%	55%	73%
单模型 C	73%	100%	100%	90%	56%	65%	80%

ClawBrain 通过编排引擎实现：主动思考→多模型协作→输出验证→错误恢复，综合表现超越任何单模型。

完整报告：https://clawbrain.dev/blog/openclaw-model-comparison