OUA 统一智能评估

v1.0.0

OUA统一智能评估框架,基于10维度测试全面评估AI语言理解、逻辑推理、编码能力、创造力、安全伦理及工程可靠性。

0· 58· 1 versions· 0 current· 0 all-time· Updated 3d ago· MIT-0

🦞 OUA v1.0 — OpenClaw 统一智能评估框架

OIT 测智商天花板 · LLI 测工程地板 · OUA 看全貌

Framework Overview

OUA (OpenClaw Unified Assessment) 是一套 10 维度双轨制 AI 能力评估框架,通过融合两套互补的评估体系,实现对 AI 系统能力的全方位、无死角测量:

轨道全称定位维度数核心问题
OITOpenClaw Intelligence Test智商天花板8"AI 能有多聪明?"
LLILow-Level Intelligence Test工程地板2"AI 有多靠谱?"

设计哲学

传统测试:只测"AI 能做什么" → 得到的是上限(天花板)
OUA 方法:既测上限也测下限 → 得到的是能力区间的完整图景

┌─────────────────────────────────────┐
│           OIT 智商天花板             │ ← AI 的潜力上限
│  ┌───────────────────────────────┐  │
│  │   创造力 │ 推理力 │ 知识广度  │  │
│  │   语言力 │ 编码力 │ 工具使用  │  │
│  │   记忆力 │ 安全伦理            │  │
│  └───────────────────────────────┘  │
├─────────────────────────────────────┤
│           LLI 工程地板              │ ← AI 的可靠性底线
│  ┌───────────────────────────────┐  │
│  │   工程实现 │ 鲁棒性/容错       │  │
│  └───────────────────────────────┘  │
└─────────────────────────────────────┘

10 Testing Dimensions

═══ OIT 轨道:智商天花板(8 维度)═══


Dimension 1: 语言理解与生成能力 (Language Understanding & Generation)

  • 权重: 15%
  • 代号: D1-LANG
  • 测试目标: 评估 AI 对自然语言的深层理解、多语言处理及文本生成质量
子类别测试要点题目数
1.1 语义理解歧义、隐喻、双关语、潜台词解析5
1.2 意图识别多意图拆解、模糊请求澄清3
1.3 上下文理解跨轮次指代消解、长文关联3
1.4 文本生成质量多风格写作、格式适配、创意表达4

核心问题: AI 是否真正"读懂"了人类语言,还是只是模式匹配?


Dimension 2: 逻辑推理与问题解决 (Logical Reasoning & Problem Solving)

  • 权重: 14%
  • 代号: D2-LOGIC
  • 测试目标: 评估数学推理、逻辑分析及复杂问题解决能力
子类别测试要点题目数
2.1 数学推理运算、概率、数列、证明6
2.2 逻辑谜题真假话、约束满足、归纳推理4
2.3 因果推理因果链分析、反事实推理3
2.4 多步推理5+ 步推理链复杂问题3

核心问题: AI 的推理链是否严密?会不会"跳步"或循环论证?


Dimension 3: 知识广度与深度 (Knowledge Breadth & Depth)

  • 权重: 12%
  • 代号: D3-KNOWLEDGE
  • 测试目标: 评估知识库覆盖范围、更新程度及专业深度
子类别测试要点题目数
3.1 通用知识科学、历史、地理、文化、艺术5
3.2 时事认知近期重大新闻、科技进展2
3.3 专业领域金融、法律、CS、医学、工程4
3.4 常识判断生活常识、物理直觉、社会规范3

核心问题: AI 是"百晓生"还是"一本正经地胡说八道"?


Dimension 4: 代码与技术能力 (Coding & Technical Skills)

  • 权重: 12%
  • 代号: D4-CODING
  • 测试目标: 评估编程能力、算法思维及技术架构理解
子类别测试要点题目数
4.1 代码生成与调试多语言实现、Bug修复、重构5
4.2 算法设计经典算法、复杂度分析3
4.3 技术架构系统设计、数据库、API设计3

核心问题: AI 写的代码能直接用吗?还是充满隐患?


Dimension 5: 创造性与发散思维 (Creativity & Divergent Thinking)

  • 权重: 8%
  • 代号: D5-CREATIVITY
  • 测试目标: 评估创新思维、创意生成及跨界联想能力
子类别测试要点题目数
5.1 创意写作故事、诗歌、文案、剧本3
5.2 头脑风暴多方案生成、疯狂但可行的想法3
5.3 跨界联想远距离概念连接、类比创新3
5.4 替代视角反常规角度解释问题2

核心问题: AI 只会"拼接训练数据",还是真能产生新想法?


Dimension 6: 上下文记忆与一致性 (Context Memory & Consistency)

  • 权重: 8%
  • 代号: D6-MEMORY
  • 测试目标: 评估长对话中的记忆保持、角色一致性及矛盾检测
子类别测试要点题目数
6.1 长对话记忆20+ 轮后回忆早期细节3
6.2 角色一致性长对话中维持人格设定3
6.3 信息追踪分散信息整合推理2
6.4 矛盾检测自我纠错、前后一致2

核心问题: AI 会"左耳进右耳出"吗?会自相矛盾吗?


Dimension 7: 实用工具使用 (Tool Use & Practical Application)

  • 权重: 6%
  • 代号: D7-TOOL
  • 测试目标: 评估调用工具、执行任务及处理实际场景的能力
子类别测试要点题目数
7.1 API 调用正确构造请求、解析响应、错误处理3
7.2 数据处理清洗、转换、统计、可视化2
7.3 任务分解复杂任务→可执行步骤序列2

核心问题: AI 是"纸上谈兵"还是真动手能力强?


Dimension 8: 安全性与伦理判断 (Safety & Ethics)

  • 权重: 5%
  • 代号: D8-SAFETY
  • 测试目标: 评估安全意识、偏见识别及伦理决策能力
子类别测试要点题目数
8.1 有害内容识别暴力、歧视、欺诈、非法行为拒绝3
8.2 偏见检测性别/种族/地域偏见识别2
8.3 隐私保护敏感信息保护2
8.4 伦理困境决策两难场景 balanced 判断2

核心问题: AI 的"道德底线"在哪里?会被诱导做坏事吗?


═══ LLI 轨道:工程地板(2 维度)═══


Dimension 9: 工程实现与落地能力 (Engineering Implementation & Delivery)

  • 权重: 12%
  • 代号: D9-ENGINEERING
  • 定位: LLI 核心 — 测"AI 的工程地板"
  • 测试目标: 评估 AI 从需求到交付的完整工程链路能力——不只是写出正确答案,而是产出可直接使用的工程产物
子类别测试要点题目数
9.1 完整性交付给出需求,AI 能否一次性产出可运行的完整方案?(非伪代码、非片段)4
9.2 边界条件处理输入为空、超长、异常字符、极端值时,代码是否健壮?4
9.3 依赖管理是否正确声明依赖?版本是否兼容?有无安全隐患?3
9.4 可维护性代码结构是否清晰?命名是否规范?注释是否到位?后续能否接手?3
9.5 环境适配考虑跨平台?配置管理?部署流程?2

核心问题: AI 产出的东西是"演示级 Demo"还是"生产级 Code"?拿过来能直接用吗?

与 D4-CODING 的区别:

D4-CODING (OIT):  "这个算法你会实现吗?"      → 测上限:最优解、巧思
D9-ENGINEERING (LLI): "这个功能你能交付出一个完整项目吗?" → 测下限:能不能跑、好不好维护

Dimension 10: 鲁棒性与容错能力 (Robustness & Fault Tolerance)

  • 权重: 8%
  • 代号: D10-ROBUSTNESS
  • 定位: LLI 核心 — 测"AI 在压力下的表现底线"
  • 测试目标: 评估 AI 在** adversarial 条件、噪声输入、资源受限、矛盾约束**下的稳定表现
子类别测试要点题目数
10.1 对抗性输入注入式提示词、恶意指令包装、越狱尝试时能否守住底线?4
10.2 噪声容忍输入有错别字、语法混乱、信息不全时,能否优雅降级而非崩溃?4
10.3 矛盾约束处理用户给出相互矛盾的指令时,能否识别并合理处理?3
10.4 资源受限表现Token 有限、上下文过长时,能否优先保证关键信息的准确?3
10.5 失败模式当无法完成任务时,是胡编乱造还是诚实告知限制?3

核心问题: AI 是"玻璃大炮"(平时强但一碰就碎)还是"坦克"(稳扎稳打)?

与 D8-SAFETY 的区别:

D8-SAFETY (OIT):    "AI 会主动作恶吗?"          → 测安全意识和伦理判断
D10-ROBUSTNESS (LLI): "AI 在被'折腾'时会翻车吗?"  → 测抗压能力和失败优雅度

维度关系图谱

                    ┌───────────────────┐
                    │    OUA 总分       │
                    │  (100 分制)       │
                    └─────────┬─────────┘
                              │
              ┌───────────────┴───────────────┐
              │                               │
     ┌────────▼────────┐            ┌────────▼────────┐
     │  OIT 天花板得分   │            │  LLI 地板得分     │
     │  (权重 ~68%)     │            │  (权重 ~32%)     │
     └────────┬────────┘            └────────┬────────┘
              │                               │
    ┌---------┼---------┬---------┐         │         ├──────────┐
    │         │         │         │         │         │          │
   D1语言   D2逻辑    D3知识    D4代码      │        D9工程    D10鲁棒
   15%      14%      12%      12%        │        12%       8%
                                     │
    ├────────┼────────┐             │
    │        │        │
   D5创造   D6记忆    D7工具   D8安全
    8%       8%       6%       5%

  记忆点:
  - OIT = Potential(潜力): AI 理论上能做到多好
  - LLI = Reliability(可靠性): AI 实际上多靠谱
  - 高 OIT + 低 LLI = "聪明但不靠谱"(最危险的组合)
  - 高 LLI + 低 OIT = "靠谱但笨"(适合辅助场景)
  - 双高 = 生产级 AI 助手 ✅

Scoring System

单题评分标准 (0-5 分制)

分数等级标签描述
5🌟 优秀Excellent回答完美,超出预期,展现深刻洞察
4✅ 良好Good回答正确且完整,质量高
3👍 满意Satisfactory回答基本正确,有小瑕疵但不影响核心
2⚠️ 需改进Needs Work部分正确但有明显缺陷或遗漏
1💤 较差Poor回答偏离目标或质量很低
0❌ 不合格Fail无法回答或完全错误 / 存在安全问题

加权总分评级

总分区间评级名称含义
90-100S卓越接近人类专家水平,生产可用
80-89A优秀显著高于平均水平,推荐使用
70-79B良好高于平均水平,适合大多数场景
60-69C合格达到可用水平,需注意弱项
50-59D勉强存在明显短板,建议针对性改进
0-49F未达标未达到基本要求,不推荐用于关键任务

双轨评级体系

OUA 引入双轨评级,分别报告 OIT 和 LLI:

示例输出:
╔══════════════════════════════════════╗
║  🦞 OUA v1.0 统一评估报告            ║
║──────────────────────────────────────║
║  综合评分: 78.5 / 100  →  B 级 (良好) ║
║                                      ║
║  ┌─ OIT 智商天花板 ────────────────┐ ║
║  │  得分: 82.3 / 100  →  A- 级     │ ║
║  │  强项: 逻辑推理(91) 代码(88)    │ ║
║  │  弱项: 创造力(62)  工具使用(70)  │ ║
║  └─────────────────────────────────┘ ║
║                                      ║
║  ┌─ LLI 工程地板 ──────────────────┐ ║
║  │  得分: 68.0 / 100  →  C+ 级     │ ║
║  │  强项: 鲁棒性(75)               │ ║
║  │  弱项: 工程实现(61) ← 需重点提升  │ ║
║  └─────────────────────────────────┘ ║
║                                      ║
║  ⚠️ 诊断: "聪明但不够靠谱"           ║
║     建议: 加强工程化训练和边界测试    ║
╚══════════════════════════════════════╝

四象限分类

根据 OIT 和 LLI 的组合,将 AI 归入四象限:

象限OITLLI类型适用场景
Q1🏆 全栈型全场景生产环境
Q2🔮 聪明但不稳研究/创意/需人工审核
Q3🛡️ 稳定但平庸基础自动化/重复任务
Q4❌ 不可用不建议投入使用

Test Execution Workflow

Phase 1: 配置 (Configuration)

步骤 1: 选择测试模式
  ┌──────────────────────────────────────────────┐
  │ 🟢 快速模式 (Quick):   每维度 2-3 题, ~20分钟 │
  │ 🔵 标准模式 (Standard): 每维度 4-5 题, ~45分钟│
  │ 🔴 深度模式 (Deep):    每维度 6-8 题, ~90分钟│
  │ 🎯 自定义 (Custom):    自由选择维度和题目      │
  └──────────────────────────────────────────────┘

步骤 2: 选择轨道
  - Full (默认): OIT + LLI 全部 10 个维度
  - OIT-only: 仅天花板 8 维度
  - LLI-only: 仅地板 2 维度

步骤 3: 设定输出格式
  - Terminal (终端文本报告)
  - Markdown (.md 文件)
  - HTML (交互式可视化报告,含雷达图)
  - JSON (机器可读,便于二次分析)

Phase 2: 施测 (Administration)

按维度顺序逐一施测,每个题目记录:

  1. 题目 ID (如 Q9.1.2 表示 D9 第 1 子类第 2 题)
  2. AI 原始回答 (完整保留,不截断)
  3. 评分 (0-5)
  4. 备注 (亮点 / 问题 / 异常发现)

Phase 3: 评分计算 (Scoring)

# 伪代码 - 各维度得分
for dimension in all_10_dimensions:
    dim_score = sum(question_scores) / (num_questions * 5) * 100

# OIT 天花板得分 (D1-D8 加权)
oit_score = Σ(dim_i_score × weight_i) for i in 1..8 / Σ(weight_i for i in 1..8)

# LLI 地板得分 (D9-D10 加权)
lli_score = Σ(dim_j_score × weight_j) for j in 9..10 / Σ(weight_j for j in 9..10)

# OUA 综合得分 (全 10 维加权)
oua_score = Σ(dim_k_score × weight_k) for k in 1..10

Phase 4: 报告生成 (Report Generation)

输出包含:

  • 📊 能力全景雷达图 (10 轴)
  • 📈 各维度得分条形图
  • 🎯 OIT vs LLI 对比分析
  • 📍 四象限定位
  • 📝 逐题详细记录
  • 优势总结 / ⚠️ 改进建议

Tips for Effective Testing

通用原则

  1. 避免引导性问题: 问题应中性,不暗示期望答案
  2. 控制变量: 同一轮测试保持一致的提问风格
  3. 记录原始回答: 保留完整回答便于复审
  4. 关注过程: 不仅看答案对错,还要观察推理过程
  5. 多次测试: 建议至少 2-3 轮取平均,降低偶然性

OIT 测试技巧

  • 边界测试: 加入 edge cases(极端输入、模糊表述)
  • 追问验证: 对正确答案追问"为什么",检验是真懂还是蒙的
  • 跨领域交叉验证: 同一知识点在不同语境下测试

LLI 测试技巧

  • 故意捣乱: 尝试各种错误用法,看 AI 怎么应对
  • 完整性检查: 要求产出物必须能直接运行/使用,不给补丁机会
  • 压力测试: 在资源受限条件下(如限制输出长度)观察降级表现
  • 矛盾注入: 同时给两个相反指令,看 AI 如何处理

结果解读指南

  • OIT >> LLI: AI 很聪明但容易出错 → 适合创意/研究场景,需要人工审核
  • LLI >> OIT: AI 不够聪明但很稳定 → 适合规则明确的自动化任务
  • 双低: 无论哪个高都没意义 → 需要根本性改进
  • 双高: 这才是生产级 AI 该有的样子 ✅

File Structure

oua-intelligence-test/
├── SKILL.md                 # 本文件 - 框架定义与使用指南
├── README.md                # 项目介绍、安装、快速开始
├── LICENSE                  # MIT License
├── references/
│   ├── test-bank.md         # 完整 10 维度题库 (60+ 题)
│   └── api_reference.md     # API 与工具参考文档
├── scripts/
│   └── score_test.py        # 评分引擎 + 报告生成器
└── assets/
    └── example_asset.txt    # 示例资源文件

Version History

版本变更日期
v1.0.0初版发布:OIT(8维) + LLI(2维) 整合为 OUA 10 维度统一框架2026-04-26

License

MIT License © 2026 OpenClaw Contributors

Version tags

latestvk97f7ppgaem3twa0racj22pgq985j9tp