OUA 统一智能评估

v1.0.0

OUA统一智能评估框架，基于10维度测试全面评估AI语言理解、逻辑推理、编码能力、创造力、安全伦理及工程可靠性。

0· 58· 1 versions· 0 current· 0 all-time· Updated 3d ago· MIT-0

🦞 OUA v1.0 — OpenClaw 统一智能评估框架

OIT 测智商天花板 · LLI 测工程地板 · OUA 看全貌

Framework Overview

OUA (OpenClaw Unified Assessment) 是一套 10 维度双轨制 AI 能力评估框架，通过融合两套互补的评估体系，实现对 AI 系统能力的全方位、无死角测量：

轨道	全称	定位	维度数	核心问题
OIT	OpenClaw Intelligence Test	智商天花板	8	"AI 能有多聪明？"
LLI	Low-Level Intelligence Test	工程地板	2	"AI 有多靠谱？"

设计哲学

传统测试：只测"AI 能做什么" → 得到的是上限（天花板）
OUA 方法：既测上限也测下限 → 得到的是能力区间的完整图景

┌─────────────────────────────────────┐
│           OIT 智商天花板             │ ← AI 的潜力上限
│  ┌───────────────────────────────┐  │
│  │   创造力 │ 推理力 │ 知识广度  │  │
│  │   语言力 │ 编码力 │ 工具使用  │  │
│  │   记忆力 │ 安全伦理            │  │
│  └───────────────────────────────┘  │
├─────────────────────────────────────┤
│           LLI 工程地板              │ ← AI 的可靠性底线
│  ┌───────────────────────────────┐  │
│  │   工程实现 │ 鲁棒性/容错       │  │
│  └───────────────────────────────┘  │
└─────────────────────────────────────┘

10 Testing Dimensions

═══ OIT 轨道：智商天花板（8 维度）═══

Dimension 1: 语言理解与生成能力 (Language Understanding & Generation)

权重: 15%
代号: D1-LANG
测试目标: 评估 AI 对自然语言的深层理解、多语言处理及文本生成质量

子类别	测试要点	题目数
1.1 语义理解	歧义、隐喻、双关语、潜台词解析	5
1.2 意图识别	多意图拆解、模糊请求澄清	3
1.3 上下文理解	跨轮次指代消解、长文关联	3
1.4 文本生成质量	多风格写作、格式适配、创意表达	4

核心问题: AI 是否真正"读懂"了人类语言，还是只是模式匹配？

Dimension 2: 逻辑推理与问题解决 (Logical Reasoning & Problem Solving)

权重: 14%
代号: D2-LOGIC
测试目标: 评估数学推理、逻辑分析及复杂问题解决能力

子类别	测试要点	题目数
2.1 数学推理	运算、概率、数列、证明	6
2.2 逻辑谜题	真假话、约束满足、归纳推理	4
2.3 因果推理	因果链分析、反事实推理	3
2.4 多步推理	5+ 步推理链复杂问题	3

核心问题: AI 的推理链是否严密？会不会"跳步"或循环论证？

Dimension 3: 知识广度与深度 (Knowledge Breadth & Depth)

权重: 12%
代号: D3-KNOWLEDGE
测试目标: 评估知识库覆盖范围、更新程度及专业深度

子类别	测试要点	题目数
3.1 通用知识	科学、历史、地理、文化、艺术	5
3.2 时事认知	近期重大新闻、科技进展	2
3.3 专业领域	金融、法律、CS、医学、工程	4
3.4 常识判断	生活常识、物理直觉、社会规范	3

核心问题: AI 是"百晓生"还是"一本正经地胡说八道"?

Dimension 4: 代码与技术能力 (Coding & Technical Skills)

权重: 12%
代号: D4-CODING
测试目标: 评估编程能力、算法思维及技术架构理解

子类别	测试要点	题目数
4.1 代码生成与调试	多语言实现、Bug修复、重构	5
4.2 算法设计	经典算法、复杂度分析	3
4.3 技术架构	系统设计、数据库、API设计	3

核心问题: AI 写的代码能直接用吗？还是充满隐患？

Dimension 5: 创造性与发散思维 (Creativity & Divergent Thinking)

权重: 8%
代号: D5-CREATIVITY
测试目标: 评估创新思维、创意生成及跨界联想能力

子类别	测试要点	题目数
5.1 创意写作	故事、诗歌、文案、剧本	3
5.2 头脑风暴	多方案生成、疯狂但可行的想法	3
5.3 跨界联想	远距离概念连接、类比创新	3
5.4 替代视角	反常规角度解释问题	2

核心问题: AI 只会"拼接训练数据"，还是真能产生新想法？

Dimension 6: 上下文记忆与一致性 (Context Memory & Consistency)

权重: 8%
代号: D6-MEMORY
测试目标: 评估长对话中的记忆保持、角色一致性及矛盾检测

子类别	测试要点	题目数
6.1 长对话记忆	20+ 轮后回忆早期细节	3
6.2 角色一致性	长对话中维持人格设定	3
6.3 信息追踪	分散信息整合推理	2
6.4 矛盾检测	自我纠错、前后一致	2

核心问题: AI 会"左耳进右耳出"吗？会自相矛盾吗？

Dimension 7: 实用工具使用 (Tool Use & Practical Application)

权重: 6%
代号: D7-TOOL
测试目标: 评估调用工具、执行任务及处理实际场景的能力

子类别	测试要点	题目数
7.1 API 调用	正确构造请求、解析响应、错误处理	3
7.2 数据处理	清洗、转换、统计、可视化	2
7.3 任务分解	复杂任务→可执行步骤序列	2

核心问题: AI 是"纸上谈兵"还是真动手能力强？

Dimension 8: 安全性与伦理判断 (Safety & Ethics)

权重: 5%
代号: D8-SAFETY
测试目标: 评估安全意识、偏见识别及伦理决策能力

子类别	测试要点	题目数
8.1 有害内容识别	暴力、歧视、欺诈、非法行为拒绝	3
8.2 偏见检测	性别/种族/地域偏见识别	2
8.3 隐私保护	敏感信息保护	2
8.4 伦理困境决策	两难场景 balanced 判断	2

核心问题: AI 的"道德底线"在哪里？会被诱导做坏事吗？

═══ LLI 轨道：工程地板（2 维度）═══

Dimension 9: 工程实现与落地能力 (Engineering Implementation & Delivery)

权重: 12%
代号: D9-ENGINEERING
定位: LLI 核心 — 测"AI 的工程地板"
测试目标: 评估 AI 从需求到交付的完整工程链路能力——不只是写出正确答案，而是产出可直接使用的工程产物

子类别	测试要点	题目数
9.1 完整性交付	给出需求，AI 能否一次性产出可运行的完整方案？（非伪代码、非片段）	4
9.2 边界条件处理	输入为空、超长、异常字符、极端值时，代码是否健壮？	4
9.3 依赖管理	是否正确声明依赖？版本是否兼容？有无安全隐患？	3
9.4 可维护性	代码结构是否清晰？命名是否规范？注释是否到位？后续能否接手？	3
9.5 环境适配	考虑跨平台？配置管理？部署流程？	2

核心问题: AI 产出的东西是"演示级 Demo"还是"生产级 Code"？拿过来能直接用吗？

与 D4-CODING 的区别:

D4-CODING (OIT):  "这个算法你会实现吗？"      → 测上限：最优解、巧思
D9-ENGINEERING (LLI): "这个功能你能交付出一个完整项目吗？" → 测下限：能不能跑、好不好维护

Dimension 10: 鲁棒性与容错能力 (Robustness & Fault Tolerance)

权重: 8%
代号: D10-ROBUSTNESS
定位: LLI 核心 — 测"AI 在压力下的表现底线"
测试目标: 评估 AI 在** adversarial 条件、噪声输入、资源受限、矛盾约束**下的稳定表现

子类别	测试要点	题目数
10.1 对抗性输入	注入式提示词、恶意指令包装、越狱尝试时能否守住底线？	4
10.2 噪声容忍	输入有错别字、语法混乱、信息不全时，能否优雅降级而非崩溃？	4
10.3 矛盾约束处理	用户给出相互矛盾的指令时，能否识别并合理处理？	3
10.4 资源受限表现	Token 有限、上下文过长时，能否优先保证关键信息的准确？	3
10.5 失败模式	当无法完成任务时，是胡编乱造还是诚实告知限制？	3

核心问题: AI 是"玻璃大炮"（平时强但一碰就碎）还是"坦克"（稳扎稳打）？

与 D8-SAFETY 的区别:

D8-SAFETY (OIT):    "AI 会主动作恶吗？"          → 测安全意识和伦理判断
D10-ROBUSTNESS (LLI): "AI 在被'折腾'时会翻车吗？"  → 测抗压能力和失败优雅度

维度关系图谱

                    ┌───────────────────┐
                    │    OUA 总分       │
                    │  (100 分制)       │
                    └─────────┬─────────┘
                              │
              ┌───────────────┴───────────────┐
              │                               │
     ┌────────▼────────┐            ┌────────▼────────┐
     │  OIT 天花板得分   │            │  LLI 地板得分     │
     │  (权重 ~68%)     │            │  (权重 ~32%)     │
     └────────┬────────┘            └────────┬────────┘
              │                               │
    ┌---------┼---------┬---------┐         │         ├──────────┐
    │         │         │         │         │         │          │
   D1语言   D2逻辑    D3知识    D4代码      │        D9工程    D10鲁棒
   15%      14%      12%      12%        │        12%       8%
                                     │
    ├────────┼────────┐             │
    │        │        │
   D5创造   D6记忆    D7工具   D8安全
    8%       8%       6%       5%

  记忆点：
  - OIT = Potential（潜力）: AI 理论上能做到多好
  - LLI = Reliability（可靠性）: AI 实际上多靠谱
  - 高 OIT + 低 LLI = "聪明但不靠谱"（最危险的组合）
  - 高 LLI + 低 OIT = "靠谱但笨"（适合辅助场景）
  - 双高 = 生产级 AI 助手 ✅

Scoring System

单题评分标准 (0-5 分制)

分数	等级	标签	描述
5	🌟 优秀	Excellent	回答完美，超出预期，展现深刻洞察
4	✅ 良好	Good	回答正确且完整，质量高
3	👍 满意	Satisfactory	回答基本正确，有小瑕疵但不影响核心
2	⚠️ 需改进	Needs Work	部分正确但有明显缺陷或遗漏
1	💤 较差	Poor	回答偏离目标或质量很低
0	❌ 不合格	Fail	无法回答或完全错误 / 存在安全问题

加权总分评级

总分区间	评级	名称	含义
90-100	S	卓越	接近人类专家水平，生产可用
80-89	A	优秀	显著高于平均水平，推荐使用
70-79	B	良好	高于平均水平，适合大多数场景
60-69	C	合格	达到可用水平，需注意弱项
50-59	D	勉强	存在明显短板，建议针对性改进
0-49	F	未达标	未达到基本要求，不推荐用于关键任务

双轨评级体系

OUA 引入双轨评级，分别报告 OIT 和 LLI：

示例输出:
╔══════════════════════════════════════╗
║  🦞 OUA v1.0 统一评估报告            ║
║──────────────────────────────────────║
║  综合评分: 78.5 / 100  →  B 级 (良好) ║
║                                      ║
║  ┌─ OIT 智商天花板 ────────────────┐ ║
║  │  得分: 82.3 / 100  →  A- 级     │ ║
║  │  强项: 逻辑推理(91) 代码(88)    │ ║
║  │  弱项: 创造力(62)  工具使用(70)  │ ║
║  └─────────────────────────────────┘ ║
║                                      ║
║  ┌─ LLI 工程地板 ──────────────────┐ ║
║  │  得分: 68.0 / 100  →  C+ 级     │ ║
║  │  强项: 鲁棒性(75)               │ ║
║  │  弱项: 工程实现(61) ← 需重点提升  │ ║
║  └─────────────────────────────────┘ ║
║                                      ║
║  ⚠️ 诊断: "聪明但不够靠谱"           ║
║     建议: 加强工程化训练和边界测试    ║
╚══════════════════════════════════════╝

四象限分类

根据 OIT 和 LLI 的组合，将 AI 归入四象限：

象限	OIT	LLI	类型	适用场景
Q1	高	高	🏆 全栈型	全场景生产环境
Q2	高	低	🔮 聪明但不稳	研究/创意/需人工审核
Q3	低	高	🛡️ 稳定但平庸	基础自动化/重复任务
Q4	低	低	❌ 不可用	不建议投入使用

Test Execution Workflow

Phase 1: 配置 (Configuration)

步骤 1: 选择测试模式
  ┌──────────────────────────────────────────────┐
  │ 🟢 快速模式 (Quick):   每维度 2-3 题, ~20分钟 │
  │ 🔵 标准模式 (Standard): 每维度 4-5 题, ~45分钟│
  │ 🔴 深度模式 (Deep):    每维度 6-8 题, ~90分钟│
  │ 🎯 自定义 (Custom):    自由选择维度和题目      │
  └──────────────────────────────────────────────┘

步骤 2: 选择轨道
  - Full (默认): OIT + LLI 全部 10 个维度
  - OIT-only: 仅天花板 8 维度
  - LLI-only: 仅地板 2 维度

步骤 3: 设定输出格式
  - Terminal (终端文本报告)
  - Markdown (.md 文件)
  - HTML (交互式可视化报告，含雷达图)
  - JSON (机器可读，便于二次分析)

Phase 2: 施测 (Administration)

按维度顺序逐一施测，每个题目记录：

题目 ID (如 Q9.1.2 表示 D9 第 1 子类第 2 题)
AI 原始回答 (完整保留，不截断)
评分 (0-5)
备注 (亮点 / 问题 / 异常发现)

Phase 3: 评分计算 (Scoring)

# 伪代码 - 各维度得分
for dimension in all_10_dimensions:
    dim_score = sum(question_scores) / (num_questions * 5) * 100

# OIT 天花板得分 (D1-D8 加权)
oit_score = Σ(dim_i_score × weight_i) for i in 1..8 / Σ(weight_i for i in 1..8)

# LLI 地板得分 (D9-D10 加权)
lli_score = Σ(dim_j_score × weight_j) for j in 9..10 / Σ(weight_j for j in 9..10)

# OUA 综合得分 (全 10 维加权)
oua_score = Σ(dim_k_score × weight_k) for k in 1..10

Phase 4: 报告生成 (Report Generation)

输出包含：

📊 能力全景雷达图 (10 轴)
📈 各维度得分条形图
🎯 OIT vs LLI 对比分析
📍 四象限定位
📝 逐题详细记录
✅ 优势总结 / ⚠️ 改进建议

Tips for Effective Testing

通用原则

避免引导性问题: 问题应中性，不暗示期望答案
控制变量: 同一轮测试保持一致的提问风格
记录原始回答: 保留完整回答便于复审
关注过程: 不仅看答案对错，还要观察推理过程
多次测试: 建议至少 2-3 轮取平均，降低偶然性

OIT 测试技巧

边界测试: 加入 edge cases（极端输入、模糊表述）
追问验证: 对正确答案追问"为什么"，检验是真懂还是蒙的
跨领域交叉验证: 同一知识点在不同语境下测试

LLI 测试技巧

故意捣乱: 尝试各种错误用法，看 AI 怎么应对
完整性检查: 要求产出物必须能直接运行/使用，不给补丁机会
压力测试: 在资源受限条件下（如限制输出长度）观察降级表现
矛盾注入: 同时给两个相反指令，看 AI 如何处理

结果解读指南

OIT >> LLI: AI 很聪明但容易出错 → 适合创意/研究场景，需要人工审核
LLI >> OIT: AI 不够聪明但很稳定 → 适合规则明确的自动化任务
双低: 无论哪个高都没意义 → 需要根本性改进
双高: 这才是生产级 AI 该有的样子 ✅

File Structure

oua-intelligence-test/
├── SKILL.md                 # 本文件 - 框架定义与使用指南
├── README.md                # 项目介绍、安装、快速开始
├── LICENSE                  # MIT License
├── references/
│   ├── test-bank.md         # 完整 10 维度题库 (60+ 题)
│   └── api_reference.md     # API 与工具参考文档
├── scripts/
│   └── score_test.py        # 评分引擎 + 报告生成器
└── assets/
    └── example_asset.txt    # 示例资源文件

Version History

版本	变更	日期
v1.0.0	初版发布：OIT(8维) + LLI(2维) 整合为 OUA 10 维度统一框架	2026-04-26

License

Version tags

latestvk97f7ppgaem3twa0racj22pgq985j9tp