Install
openclaw skills install skylv-evaluation-benchmarkAgent评估测试助手。设计评估指标、构建测试集、生成报告。使用场景:(1) 设计评估指标,(2) 构建测试集,(3) 执行评估测试,(4) 分析评估结果。
openclaw skills install skylv-evaluation-benchmark评估和测试Agent性能。
用户: 如何评估Agent的效果?
用户: 构建一个代码生成测试集
用户: 运行评估测试
用户: 分析这次评估的结果