Xiaozhi Teach Math Exam Designer

Other

帮助数学老师把"出试卷"升级为"系统化测评设计"。 当老师说"这周考什么"、"试卷怎么出"、 "测评怎么设计"、"双向细目表"、 "诊断性测评"、"形成性测评"、"学员测评"时, 必须激活此SKILL。 核心工作流:测评目标(诊断/形成/总结)→ 双向细目表(知识点×认知层级)→ 题目选编(教材原题/改编/自有)→ 难度梯度(基础/中等/提升)→ 测评实施(限时/规则/讲评)→ 结果分析(错因/能力维度/教学干预)→ 与学生端测评 / 错因 DNA / 学情分析师建立数据接口。 该版本基于"双向细目表"理念, 让测评从"凭感觉出题"变成"系统化诊断"。

Install

openclaw skills install xiaozhi-teach-math-exam-designer

数学测评设计 SKILL

一句话定位: 测评不是给学员"打标签",而是给教学"照镜子"——双向细目表是从"出题感觉"到"诊断精准"的桥梁。


⚠️ 技术实现边界声明

关于"AI 出题"边界: 本 SKILL 输出测评设计框架双向细目表代替老师出完整试卷。

关于"题目版权"边界: 题目必须标注 copyrightStatus;不复制未授权教辅题库。

关于"AI 评分"边界: 本 SKILL 替老师阅卷评分;只提供分析框架教学建议


一、核心使命

数学测评设计常见的三个误区:

误区① 出题=凭感觉:老师"凭感觉"出题,
        难易不均,覆盖不全,学员做起来忽高忽低。

误区② 测评=打分:测完了打个分就完事,
        没有诊断,没有后续教学。

误区③ 试卷=模仿:抄一份模拟卷,
        没考虑本班学员的实际水平。

本 SKILL 要解决的是:

  • 让测评"有目标":诊断/形成/总结 三类
  • 让出题"有依据":双向细目表
  • 让难度"有梯度":基础/中等/提升
  • 让结果"有诊断":错因+能力+教学干预

二、触发时机

触发场景示例语句
测评设计"这周考什么"
试卷出题"试卷怎么出"
双向细目表"双向细目表"
诊断性测评"诊断性测评"
形成性测评"形成性测评"
难度梯度"题目难度怎么安排"
测评分析"测评结果怎么用"
学员测评"学员测评"

三、核心流程

                ┌──────────────────────────┐
                │ ① 测评目标                │
                │  诊断/形成/总结           │
                └────────────┬─────────────┘
                             ↓
                ┌──────────────────────────┐
                │ ② 双向细目表              │
                │  知识点×认知层级          │
                └────────────┬─────────────┘
                             ↓
                ┌──────────────────────────┐
                │ ③ 题目选编                │
                │  教材/改编/自有           │
                └────────────┬─────────────┘
                             ↓
                ┌──────────────────────────┐
                │ ④ 难度梯度                │
                │  基础/中等/提升           │
                └────────────┬─────────────┘
                             ↓
                ┌──────────────────────────┐
                │ ⑤ 测评实施                │
                │  限时/规则/讲评           │
                └────────────┬─────────────┘
                             ↓
                ┌──────────────────────────┐
                │ ⑥ 结果分析                │
                │  错因/能力/教学           │
                └────────────┬─────────────┘
                             ↓
                ┌──────────────────────────┐
                │ ⑦ 写回 student-analyzer   │
                │  测评能力维度             │
                └──────────────────────────┘

四、测评目标(三类)

4.1 测评类型总览

┌──────────┬────────────────────────┬────────────┬──────────────┐
│ 类型      │ 描述                    │ 时机        │ 目的         │
├──────────┼────────────────────────┼────────────┼──────────────┤
│ 诊断性    │ 测"学员已有什么"        │ 单元/学期初 │ 找起点       │
│ 形成性    │ 测"学员学到哪了"        │ 单元/期中  │ 调进度       │
│ 总结性    │ 测"学员学得怎样"        │ 期末/升学  │ 评成果       │
└──────────┴────────────────────────┴────────────┴──────────────┘

4.2 三类测评设计

■ 诊断性测评
  · 时机:新单元/新学期开始
  · 长度:短(15-30 分钟)
  · 难度:覆盖低-高
  · 目的:找学员起点

■ 形成性测评
  · 时机:单元中/期中
  · 长度:中(30-60 分钟)
  · 难度:覆盖本单元
  · 目的:调整教学

■ 总结性测评
  · 时机:单元末/期末/升学
  · 长度:长(60-120 分钟)
  · 难度:覆盖全部
  · 目的:评定成果

五、双向细目表

5.1 双向细目表定义

横轴:知识点
纵轴:认知层级(Bloom 分类)
交叉点:题目

5.2 认知层级(Bloom)

┌──────────┬────────────────────────┬──────────────┐
│ 层级      │ 描述                    │ 题型          │
├──────────┼────────────────────────┼──────────────┤
│ 记忆      │ 记住事实/概念            │ 选择/填空     │
│ 理解      │ 解释/归纳               │ 简答/判断     │
│ 应用      │ 用知识解决问题           │ 计算/解答     │
│ 分析      │ 拆解/比较               │ 综合/分析     │
│ 评价      │ 评判/论证               │ 论述/比较     │
│ 创造      │ 综合/创新               │ 探究/开放     │
└──────────┴────────────────────────┴──────────────┘

5.3 双向细目表样板

━━━━━━━━━━━━━━━━━━━━━━━━━━━
📊 双向细目表 · [测评名] · [日期]
━━━━━━━━━━━━━━━━━━━━━━━━━━━
           │ 记忆 │ 理解 │ 应用 │ 分析 │ 评价 │ 创造
───────────┼──────┼──────┼──────┼──────┼──────┼──────
知识点 1   │  T1  │  T2  │  T3  │      │      │
知识点 2   │      │  T4  │  T5  │  T6  │      │
知识点 3   │  T7  │      │  T8  │  T9  │ T10  │
知识点 4   │      │      │  T11 │ T12  │ T13  │
知识点 5   │ T14  │      │      │ T15  │      │  T16
───────────┴──────┴──────┴──────┴──────┴──────┴──────
           T1-T16 共 16 题
           分值:记忆 30% / 理解 25% / 应用 25% / 分析 15% / 评价+创造 5%
━━━━━━━━━━━━━━━━━━━━━━━━━━━

5.4 双向细目表设计原则

■ 知识点覆盖
  · 本单元所有重要知识点
  · 重点知识点题量多
  · 次要知识点题量少

■ 认知层级分布
  · 记忆 + 理解 ≥ 50%(基础)
  · 应用 + 分析 ≥ 35%(核心)
  · 评价 + 创造 ≤ 15%(提升)

■ 难度梯度
  · 基础题 60%
  · 中等题 30%
  · 提升题 10%

六、题目选编

6.1 题目来源

┌──────────┬────────────────────────┬──────────────┐
│ 来源      │ 描述                    │ 适用          │
├──────────┼────────────────────────┼──────────────┤
│ 教材原题  │ 教材课后题              │ 基础训练      │
│ 改编题    │ 基于教材/经典题改编     │ 针对本班      │
│ 自有题    │ 老师原创                │ 班级特色      │
│ CC 协议  │ 公开可引用              │ 拓展          │
└──────────┴────────────────────────┴──────────────┘

6.2 题目选编原则

■ 难度梯度合理
  · 基础→中等→提升
  · 学员有"上手感"

■ 知识点覆盖全
  · 双向细目表

■ 认知层级有梯度
  · 记忆→理解→应用
  · 不全是记忆

■ 题目情境真实
  · 学员有代入感

■ 避免
  · 偏题怪题
  · 套路题(答案唯一性差)
  · 信息超量

6.3 题目版权

✅ 教材原题:标注来源
✅ 改编题:基于教材/经典题改编
✅ 自有题:老师原创
✅ CC 协议:公开可引用

❌ 禁止:未授权复制教辅题库
❌ 禁止:未授权转载网络题库

七、难度梯度设计

7.1 三档难度

┌──────────┬────────────────────────┬──────────┐
│ 难度      │ 描述                    │ 占比      │
├──────────┼────────────────────────┼──────────┤
│ 基础      │ 单一知识点/单一方法     │ 60%       │
│ 中等      │ 多个知识点/组合方法     │ 30%       │
│ 提升      │ 综合/创新/开放          │ 10%       │
└──────────┴────────────────────────┴──────────┘

7.2 基础题设计

■ 特点
  · 单一知识点
  · 单一方法
  · 直接应用

■ 学员表现
  · 90% 学员能做对
  · 学员有"上手感"
  · 不丢信心

■ 教学意义
  · 让学员"打底"
  · 让学员有"成就感"

7.3 中等题设计

■ 特点
  · 多个知识点
  · 多种方法
  · 需要分析

■ 学员表现
  · 50-70% 学员能做对
  · 学员需要"思考"
  · 区分学员

■ 教学意义
  · 区分学员
  · 训练思维

7.4 提升题设计

■ 特点
  · 综合
  · 创新
  · 开放

■ 学员表现
  · 10-30% 学员能做对
  · 学员需要"深度思考"
  · 选拔功能

■ 教学意义
  · 选拔功能
  · 训练高阶思维

7.5 难度梯度样板

━━━━━━━━━━━━━━━━━━━━━━━━━━━
📊 难度梯度样板
━━━━━━━━━━━━━━━━━━━━━━━━━━━
■ 第 1-3 题(基础)
  · 单一知识点
  · 单一方法
  · 90% 学员可做

■ 第 4-8 题(中等)
  · 多个知识点
  · 多种方法
  · 50-70% 学员可做

■ 第 9-10 题(提升)
  · 综合/创新
  · 10-30% 学员可做

■ 难度曲线
  · 简单→中等→提升
  · 不忽高忽低
━━━━━━━━━━━━━━━━━━━━━━━━━━━

八、测评实施

8.1 测评规则

■ 限时
  · 小学:60 分钟
  · 初中:90-120 分钟
  · 高中:120-150 分钟

■ 规则
  · 独立完成
  · 禁止交流
  · 禁止工具
  · 监考

■ 讲评
  · 及时(24 小时内)
  · 重点讲错因
  · 学员订正

8.2 测评讲评

■ 共性讲评
  · 班级整体水平
  · 共性错因
  · 共性问题

■ 个体反馈
  · 学员个人错因
  · 改进方向
  · 学员档案更新

■ 错题档案
  · 错题入库
  · 后续练习

九、测评结果分析

9.1 班级报告

━━━━━━━━━━━━━━━━━━━━━━━━━━━
📊 测评分析报告 · [班级] · [测评名]
━━━━━━━━━━━━━━━━━━━━━━━━━━━
■ 总体
  · 参与:[N] 人
  · 平均分:[N]
  · 中位数:[N]
  · 标准差:[N]

■ 分数段
  · 90+:[N] 人([N]%)
  · 80-89:[N] 人([N]%)
  · 70-79:[N] 人([N]%)
  · 60-69:[N] 人([N]%)
  · <60:[N] 人([N]%)

■ 知识点热力
  · 知识点 1:🟢 90%
  · 知识点 2:🟡 60%
  · 知识点 3:🔴 30%

■ 错因分布
  · 概念模糊:[N]%
  · 规则错误:[N]%
  · 审题错误:[N]%
  · 策略错误:[N]%
  · 计算错误:[N]%
  · 粗心大意:[N]%
  · 知识漏洞:[N]%

■ 教学建议
  · 重新讲:[X]
  · 加练习:[X]
  · 关注:[X 学员]
━━━━━━━━━━━━━━━━━━━━━━━━━━━

9.2 学员报告

━━━━━━━━━━━━━━━━━━━━━━━━━━━
📊 测评分析报告 · [学员化名] · [测评名]
━━━━━━━━━━━━━━━━━━━━━━━━━━━
■ 分数
  · 总分:[N] / [N]
  · 排名:[N] / [N]

■ 知识点表现
  · 强项:[N]%
  · 弱项:[N]%

■ 错因分析
  · 主导错因:[X]

■ 改进建议
  · [X]
  · [X]
━━━━━━━━━━━━━━━━━━━━━━━━━━━

十、测评使用

10.1 三类测评使用

■ 诊断性测评
  · 用于"找起点"
  · 调整后续教学
  · 不排名

■ 形成性测评
  · 用于"调进度"
  · 及时干预
  · 可灵活调整

■ 总结性测评
  · 用于"评成果"
  · 较正式
  · 可作为升级依据

10.2 测评频率

· 诊断性:每学期 1-2 次
· 形成性:每单元 1 次
· 总结性:每学期 2-3 次
· 不频繁测评(学员压力)

十一、与上游/下游 SKILL 的协作

11.1 协作流图

              ┌────────────────────────┐
              │ xiaozhi-teach-         │
              │  student-analyzer      │
              │ (学员水平数据)        │
              └───────────┬────────────┘
                          │
                          ↓
              ┌────────────────────────┐
              │ xiaozhi-teach-         │
              │  math-exam-designer    │
              │  (本 SKILL)           │
              └───────────┬────────────┘
                          │
        ┌─────────────────┼─────────────────┐
        ↓                 ↓                 ↓
  exam results       math-error-analyzer  resource-library
  (测评结果)       (错因分析)          (错题入库)

11.2 接口

读:
  studentAnalyzer.level         → 学员水平
  studentAnalyzer.weaknessRank  → 弱项
  lessonPlan.content            → 教学内容

写:
  examDesigner.blueprint        → 双向细目表
  examDesigner.exam             → 试卷
  examDesigner.resultAnalysis   → 结果分析
  → math-error-analyzer 接收
  → resource-library 接收

十二、字段级高敏信息防护

✅ 测评分析用化名
✅ 班级报告用编号
❌ 禁止:公开"某学员的分数排名"
❌ 禁止:未授权公开测评题
✅ 测评结果可入档案(脱敏后)

十三、行为准则

✅ 应该做❌ 不能做
测评三类(诊断/形成/总结)测评=打分
双向细目表设计凭感觉出题
难度梯度(60/30/10)难易不均
题目来源标注复制未授权题
测评结果分析测完就完事
教学干预建议测评=排名
学员化名公开排名

十四、与其他 SKILL 的协同清单

数学测评设计
    <── xiaozhi-teach-student-analyzer(学员水平)
    <── xiaozhi-teach-lesson-planner(教学内容)
    ──→ xiaozhi-teach-math-error-analyzer(错因分析)
    ──→ xiaozhi-teach-resource-library(错题入库)
    ──→ xiaozhi-teach-lesson-planner(教学干预)
    ──→ 学生端 xiaozhi-math-problem-solving-coach(学员视角)

禁止行为

  • 禁止 AI 替老师阅卷
  • 禁止 AI 给学员排名
  • 禁止 AI 替老师出完整试卷(只提供框架)
  • 禁止未授权复制题库
  • 禁止公开学员分数排名

十五、参考资源

  • references/blueprint-template.md — 双向细目表模板(知识点 × 能力层级)
  • references/exam-design-process.md — 测评设计 6 步流程
  • references/result-analysis-rubric.md — 结果分析 4 维模板(分数/知识点/错因/学员)

🦞 小龙虾说: "测评不是给学员'打标签', 是给教学'照镜子'。 镜子里看到的不是'谁好谁差', 而是'哪里教得好,哪里还需努力'—— 这就是测评设计的真正意义。"