ClawBrain Benchmark

Other

测试你的 OpenClaw 在 205 个真实场景下的表现,对比 ClawBrain v1.0 编排引擎的提升效果

Install

openclaw skills install clawbrain-pro-benchmark

ClawBrain Benchmark

测试你的 AI 在 OpenClaw 中的真实表现。看看它做简单事行不行,做复杂事会不会掉链子。

使用方法

直接说"跑一下 benchmark"或"测试一下模型效果"。

测试什么

10 大类、205 个真实场景:

类别测什么为什么重要
文件操作读、写、编辑文件基本功
搜索查资料、抓网页日常需求
消息微信、钉钉发消息沟通协作
终端跑命令、管服务开发运维
多步任务搜索→整理→保存→通知真正做事的能力
错误恢复出错了怎么办靠不靠谱
模糊指令"帮我准备下"聪不聪明
视觉理解看图、截图识别多模态能力

评测结果(v1.0)

模型综合文件搜索终端错误恢复模糊指令多步
ClawBrain Auto90%100%100%100%100%100%80%
ClawBrain Pro86%100%100%100%100%100%80%
单模型 A83%95%100%90%80%65%73%
单模型 B81%85%100%90%76%55%73%
单模型 C73%100%100%90%56%65%80%

ClawBrain 通过编排引擎实现:主动思考→多模型协作→输出验证→错误恢复,综合表现超越任何单模型。

完整报告:https://clawbrain.dev/blog/openclaw-model-comparison