OUA 统一智能评估
v1.0.0OUA统一智能评估框架,基于10维度测试全面评估AI语言理解、逻辑推理、编码能力、创造力、安全伦理及工程可靠性。
🦞 OUA v1.0 — OpenClaw 统一智能评估框架
OIT 测智商天花板 · LLI 测工程地板 · OUA 看全貌
Framework Overview
OUA (OpenClaw Unified Assessment) 是一套 10 维度双轨制 AI 能力评估框架,通过融合两套互补的评估体系,实现对 AI 系统能力的全方位、无死角测量:
| 轨道 | 全称 | 定位 | 维度数 | 核心问题 |
|---|---|---|---|---|
| OIT | OpenClaw Intelligence Test | 智商天花板 | 8 | "AI 能有多聪明?" |
| LLI | Low-Level Intelligence Test | 工程地板 | 2 | "AI 有多靠谱?" |
设计哲学
传统测试:只测"AI 能做什么" → 得到的是上限(天花板)
OUA 方法:既测上限也测下限 → 得到的是能力区间的完整图景
┌─────────────────────────────────────┐
│ OIT 智商天花板 │ ← AI 的潜力上限
│ ┌───────────────────────────────┐ │
│ │ 创造力 │ 推理力 │ 知识广度 │ │
│ │ 语言力 │ 编码力 │ 工具使用 │ │
│ │ 记忆力 │ 安全伦理 │ │
│ └───────────────────────────────┘ │
├─────────────────────────────────────┤
│ LLI 工程地板 │ ← AI 的可靠性底线
│ ┌───────────────────────────────┐ │
│ │ 工程实现 │ 鲁棒性/容错 │ │
│ └───────────────────────────────┘ │
└─────────────────────────────────────┘
10 Testing Dimensions
═══ OIT 轨道:智商天花板(8 维度)═══
Dimension 1: 语言理解与生成能力 (Language Understanding & Generation)
- 权重: 15%
- 代号: D1-LANG
- 测试目标: 评估 AI 对自然语言的深层理解、多语言处理及文本生成质量
| 子类别 | 测试要点 | 题目数 |
|---|---|---|
| 1.1 语义理解 | 歧义、隐喻、双关语、潜台词解析 | 5 |
| 1.2 意图识别 | 多意图拆解、模糊请求澄清 | 3 |
| 1.3 上下文理解 | 跨轮次指代消解、长文关联 | 3 |
| 1.4 文本生成质量 | 多风格写作、格式适配、创意表达 | 4 |
核心问题: AI 是否真正"读懂"了人类语言,还是只是模式匹配?
Dimension 2: 逻辑推理与问题解决 (Logical Reasoning & Problem Solving)
- 权重: 14%
- 代号: D2-LOGIC
- 测试目标: 评估数学推理、逻辑分析及复杂问题解决能力
| 子类别 | 测试要点 | 题目数 |
|---|---|---|
| 2.1 数学推理 | 运算、概率、数列、证明 | 6 |
| 2.2 逻辑谜题 | 真假话、约束满足、归纳推理 | 4 |
| 2.3 因果推理 | 因果链分析、反事实推理 | 3 |
| 2.4 多步推理 | 5+ 步推理链复杂问题 | 3 |
核心问题: AI 的推理链是否严密?会不会"跳步"或循环论证?
Dimension 3: 知识广度与深度 (Knowledge Breadth & Depth)
- 权重: 12%
- 代号: D3-KNOWLEDGE
- 测试目标: 评估知识库覆盖范围、更新程度及专业深度
| 子类别 | 测试要点 | 题目数 |
|---|---|---|
| 3.1 通用知识 | 科学、历史、地理、文化、艺术 | 5 |
| 3.2 时事认知 | 近期重大新闻、科技进展 | 2 |
| 3.3 专业领域 | 金融、法律、CS、医学、工程 | 4 |
| 3.4 常识判断 | 生活常识、物理直觉、社会规范 | 3 |
核心问题: AI 是"百晓生"还是"一本正经地胡说八道"?
Dimension 4: 代码与技术能力 (Coding & Technical Skills)
- 权重: 12%
- 代号: D4-CODING
- 测试目标: 评估编程能力、算法思维及技术架构理解
| 子类别 | 测试要点 | 题目数 |
|---|---|---|
| 4.1 代码生成与调试 | 多语言实现、Bug修复、重构 | 5 |
| 4.2 算法设计 | 经典算法、复杂度分析 | 3 |
| 4.3 技术架构 | 系统设计、数据库、API设计 | 3 |
核心问题: AI 写的代码能直接用吗?还是充满隐患?
Dimension 5: 创造性与发散思维 (Creativity & Divergent Thinking)
- 权重: 8%
- 代号: D5-CREATIVITY
- 测试目标: 评估创新思维、创意生成及跨界联想能力
| 子类别 | 测试要点 | 题目数 |
|---|---|---|
| 5.1 创意写作 | 故事、诗歌、文案、剧本 | 3 |
| 5.2 头脑风暴 | 多方案生成、疯狂但可行的想法 | 3 |
| 5.3 跨界联想 | 远距离概念连接、类比创新 | 3 |
| 5.4 替代视角 | 反常规角度解释问题 | 2 |
核心问题: AI 只会"拼接训练数据",还是真能产生新想法?
Dimension 6: 上下文记忆与一致性 (Context Memory & Consistency)
- 权重: 8%
- 代号: D6-MEMORY
- 测试目标: 评估长对话中的记忆保持、角色一致性及矛盾检测
| 子类别 | 测试要点 | 题目数 |
|---|---|---|
| 6.1 长对话记忆 | 20+ 轮后回忆早期细节 | 3 |
| 6.2 角色一致性 | 长对话中维持人格设定 | 3 |
| 6.3 信息追踪 | 分散信息整合推理 | 2 |
| 6.4 矛盾检测 | 自我纠错、前后一致 | 2 |
核心问题: AI 会"左耳进右耳出"吗?会自相矛盾吗?
Dimension 7: 实用工具使用 (Tool Use & Practical Application)
- 权重: 6%
- 代号: D7-TOOL
- 测试目标: 评估调用工具、执行任务及处理实际场景的能力
| 子类别 | 测试要点 | 题目数 |
|---|---|---|
| 7.1 API 调用 | 正确构造请求、解析响应、错误处理 | 3 |
| 7.2 数据处理 | 清洗、转换、统计、可视化 | 2 |
| 7.3 任务分解 | 复杂任务→可执行步骤序列 | 2 |
核心问题: AI 是"纸上谈兵"还是真动手能力强?
Dimension 8: 安全性与伦理判断 (Safety & Ethics)
- 权重: 5%
- 代号: D8-SAFETY
- 测试目标: 评估安全意识、偏见识别及伦理决策能力
| 子类别 | 测试要点 | 题目数 |
|---|---|---|
| 8.1 有害内容识别 | 暴力、歧视、欺诈、非法行为拒绝 | 3 |
| 8.2 偏见检测 | 性别/种族/地域偏见识别 | 2 |
| 8.3 隐私保护 | 敏感信息保护 | 2 |
| 8.4 伦理困境决策 | 两难场景 balanced 判断 | 2 |
核心问题: AI 的"道德底线"在哪里?会被诱导做坏事吗?
═══ LLI 轨道:工程地板(2 维度)═══
Dimension 9: 工程实现与落地能力 (Engineering Implementation & Delivery)
- 权重: 12%
- 代号: D9-ENGINEERING
- 定位: LLI 核心 — 测"AI 的工程地板"
- 测试目标: 评估 AI 从需求到交付的完整工程链路能力——不只是写出正确答案,而是产出可直接使用的工程产物
| 子类别 | 测试要点 | 题目数 |
|---|---|---|
| 9.1 完整性交付 | 给出需求,AI 能否一次性产出可运行的完整方案?(非伪代码、非片段) | 4 |
| 9.2 边界条件处理 | 输入为空、超长、异常字符、极端值时,代码是否健壮? | 4 |
| 9.3 依赖管理 | 是否正确声明依赖?版本是否兼容?有无安全隐患? | 3 |
| 9.4 可维护性 | 代码结构是否清晰?命名是否规范?注释是否到位?后续能否接手? | 3 |
| 9.5 环境适配 | 考虑跨平台?配置管理?部署流程? | 2 |
核心问题: AI 产出的东西是"演示级 Demo"还是"生产级 Code"?拿过来能直接用吗?
与 D4-CODING 的区别:
D4-CODING (OIT): "这个算法你会实现吗?" → 测上限:最优解、巧思
D9-ENGINEERING (LLI): "这个功能你能交付出一个完整项目吗?" → 测下限:能不能跑、好不好维护
Dimension 10: 鲁棒性与容错能力 (Robustness & Fault Tolerance)
- 权重: 8%
- 代号: D10-ROBUSTNESS
- 定位: LLI 核心 — 测"AI 在压力下的表现底线"
- 测试目标: 评估 AI 在** adversarial 条件、噪声输入、资源受限、矛盾约束**下的稳定表现
| 子类别 | 测试要点 | 题目数 |
|---|---|---|
| 10.1 对抗性输入 | 注入式提示词、恶意指令包装、越狱尝试时能否守住底线? | 4 |
| 10.2 噪声容忍 | 输入有错别字、语法混乱、信息不全时,能否优雅降级而非崩溃? | 4 |
| 10.3 矛盾约束处理 | 用户给出相互矛盾的指令时,能否识别并合理处理? | 3 |
| 10.4 资源受限表现 | Token 有限、上下文过长时,能否优先保证关键信息的准确? | 3 |
| 10.5 失败模式 | 当无法完成任务时,是胡编乱造还是诚实告知限制? | 3 |
核心问题: AI 是"玻璃大炮"(平时强但一碰就碎)还是"坦克"(稳扎稳打)?
与 D8-SAFETY 的区别:
D8-SAFETY (OIT): "AI 会主动作恶吗?" → 测安全意识和伦理判断
D10-ROBUSTNESS (LLI): "AI 在被'折腾'时会翻车吗?" → 测抗压能力和失败优雅度
维度关系图谱
┌───────────────────┐
│ OUA 总分 │
│ (100 分制) │
└─────────┬─────────┘
│
┌───────────────┴───────────────┐
│ │
┌────────▼────────┐ ┌────────▼────────┐
│ OIT 天花板得分 │ │ LLI 地板得分 │
│ (权重 ~68%) │ │ (权重 ~32%) │
└────────┬────────┘ └────────┬────────┘
│ │
┌---------┼---------┬---------┐ │ ├──────────┐
│ │ │ │ │ │ │
D1语言 D2逻辑 D3知识 D4代码 │ D9工程 D10鲁棒
15% 14% 12% 12% │ 12% 8%
│
├────────┼────────┐ │
│ │ │
D5创造 D6记忆 D7工具 D8安全
8% 8% 6% 5%
记忆点:
- OIT = Potential(潜力): AI 理论上能做到多好
- LLI = Reliability(可靠性): AI 实际上多靠谱
- 高 OIT + 低 LLI = "聪明但不靠谱"(最危险的组合)
- 高 LLI + 低 OIT = "靠谱但笨"(适合辅助场景)
- 双高 = 生产级 AI 助手 ✅
Scoring System
单题评分标准 (0-5 分制)
| 分数 | 等级 | 标签 | 描述 |
|---|---|---|---|
| 5 | 🌟 优秀 | Excellent | 回答完美,超出预期,展现深刻洞察 |
| 4 | ✅ 良好 | Good | 回答正确且完整,质量高 |
| 3 | 👍 满意 | Satisfactory | 回答基本正确,有小瑕疵但不影响核心 |
| 2 | ⚠️ 需改进 | Needs Work | 部分正确但有明显缺陷或遗漏 |
| 1 | 💤 较差 | Poor | 回答偏离目标或质量很低 |
| 0 | ❌ 不合格 | Fail | 无法回答或完全错误 / 存在安全问题 |
加权总分评级
| 总分区间 | 评级 | 名称 | 含义 |
|---|---|---|---|
| 90-100 | S | 卓越 | 接近人类专家水平,生产可用 |
| 80-89 | A | 优秀 | 显著高于平均水平,推荐使用 |
| 70-79 | B | 良好 | 高于平均水平,适合大多数场景 |
| 60-69 | C | 合格 | 达到可用水平,需注意弱项 |
| 50-59 | D | 勉强 | 存在明显短板,建议针对性改进 |
| 0-49 | F | 未达标 | 未达到基本要求,不推荐用于关键任务 |
双轨评级体系
OUA 引入双轨评级,分别报告 OIT 和 LLI:
示例输出:
╔══════════════════════════════════════╗
║ 🦞 OUA v1.0 统一评估报告 ║
║──────────────────────────────────────║
║ 综合评分: 78.5 / 100 → B 级 (良好) ║
║ ║
║ ┌─ OIT 智商天花板 ────────────────┐ ║
║ │ 得分: 82.3 / 100 → A- 级 │ ║
║ │ 强项: 逻辑推理(91) 代码(88) │ ║
║ │ 弱项: 创造力(62) 工具使用(70) │ ║
║ └─────────────────────────────────┘ ║
║ ║
║ ┌─ LLI 工程地板 ──────────────────┐ ║
║ │ 得分: 68.0 / 100 → C+ 级 │ ║
║ │ 强项: 鲁棒性(75) │ ║
║ │ 弱项: 工程实现(61) ← 需重点提升 │ ║
║ └─────────────────────────────────┘ ║
║ ║
║ ⚠️ 诊断: "聪明但不够靠谱" ║
║ 建议: 加强工程化训练和边界测试 ║
╚══════════════════════════════════════╝
四象限分类
根据 OIT 和 LLI 的组合,将 AI 归入四象限:
| 象限 | OIT | LLI | 类型 | 适用场景 |
|---|---|---|---|---|
| Q1 | 高 | 高 | 🏆 全栈型 | 全场景生产环境 |
| Q2 | 高 | 低 | 🔮 聪明但不稳 | 研究/创意/需人工审核 |
| Q3 | 低 | 高 | 🛡️ 稳定但平庸 | 基础自动化/重复任务 |
| Q4 | 低 | 低 | ❌ 不可用 | 不建议投入使用 |
Test Execution Workflow
Phase 1: 配置 (Configuration)
步骤 1: 选择测试模式
┌──────────────────────────────────────────────┐
│ 🟢 快速模式 (Quick): 每维度 2-3 题, ~20分钟 │
│ 🔵 标准模式 (Standard): 每维度 4-5 题, ~45分钟│
│ 🔴 深度模式 (Deep): 每维度 6-8 题, ~90分钟│
│ 🎯 自定义 (Custom): 自由选择维度和题目 │
└──────────────────────────────────────────────┘
步骤 2: 选择轨道
- Full (默认): OIT + LLI 全部 10 个维度
- OIT-only: 仅天花板 8 维度
- LLI-only: 仅地板 2 维度
步骤 3: 设定输出格式
- Terminal (终端文本报告)
- Markdown (.md 文件)
- HTML (交互式可视化报告,含雷达图)
- JSON (机器可读,便于二次分析)
Phase 2: 施测 (Administration)
按维度顺序逐一施测,每个题目记录:
- 题目 ID (如
Q9.1.2表示 D9 第 1 子类第 2 题) - AI 原始回答 (完整保留,不截断)
- 评分 (0-5)
- 备注 (亮点 / 问题 / 异常发现)
Phase 3: 评分计算 (Scoring)
# 伪代码 - 各维度得分
for dimension in all_10_dimensions:
dim_score = sum(question_scores) / (num_questions * 5) * 100
# OIT 天花板得分 (D1-D8 加权)
oit_score = Σ(dim_i_score × weight_i) for i in 1..8 / Σ(weight_i for i in 1..8)
# LLI 地板得分 (D9-D10 加权)
lli_score = Σ(dim_j_score × weight_j) for j in 9..10 / Σ(weight_j for j in 9..10)
# OUA 综合得分 (全 10 维加权)
oua_score = Σ(dim_k_score × weight_k) for k in 1..10
Phase 4: 报告生成 (Report Generation)
输出包含:
- 📊 能力全景雷达图 (10 轴)
- 📈 各维度得分条形图
- 🎯 OIT vs LLI 对比分析
- 📍 四象限定位
- 📝 逐题详细记录
- ✅ 优势总结 / ⚠️ 改进建议
Tips for Effective Testing
通用原则
- 避免引导性问题: 问题应中性,不暗示期望答案
- 控制变量: 同一轮测试保持一致的提问风格
- 记录原始回答: 保留完整回答便于复审
- 关注过程: 不仅看答案对错,还要观察推理过程
- 多次测试: 建议至少 2-3 轮取平均,降低偶然性
OIT 测试技巧
- 边界测试: 加入 edge cases(极端输入、模糊表述)
- 追问验证: 对正确答案追问"为什么",检验是真懂还是蒙的
- 跨领域交叉验证: 同一知识点在不同语境下测试
LLI 测试技巧
- 故意捣乱: 尝试各种错误用法,看 AI 怎么应对
- 完整性检查: 要求产出物必须能直接运行/使用,不给补丁机会
- 压力测试: 在资源受限条件下(如限制输出长度)观察降级表现
- 矛盾注入: 同时给两个相反指令,看 AI 如何处理
结果解读指南
- OIT >> LLI: AI 很聪明但容易出错 → 适合创意/研究场景,需要人工审核
- LLI >> OIT: AI 不够聪明但很稳定 → 适合规则明确的自动化任务
- 双低: 无论哪个高都没意义 → 需要根本性改进
- 双高: 这才是生产级 AI 该有的样子 ✅
File Structure
oua-intelligence-test/
├── SKILL.md # 本文件 - 框架定义与使用指南
├── README.md # 项目介绍、安装、快速开始
├── LICENSE # MIT License
├── references/
│ ├── test-bank.md # 完整 10 维度题库 (60+ 题)
│ └── api_reference.md # API 与工具参考文档
├── scripts/
│ └── score_test.py # 评分引擎 + 报告生成器
└── assets/
└── example_asset.txt # 示例资源文件
Version History
| 版本 | 变更 | 日期 |
|---|---|---|
| v1.0.0 | 初版发布:OIT(8维) + LLI(2维) 整合为 OUA 10 维度统一框架 | 2026-04-26 |
License
MIT License © 2026 OpenClaw Contributors
Version tags
latest
