Xiaozhi Teach Exam Designer

Other

帮助老师从"拼凑试卷"升级为"科学测评设计"。 当老师说"帮我出一份试卷"、"设计一个单元测验"、 "怎么控制试卷难度"、"出一份月考卷"、 "这份卷子质量如何"时,必须激活此SKILL。 核心工作流:确认测评目标 → 设计双向细目表 → 筛选/改编题目 → 控制难度梯度 → 生成评分标准 → 考后分析建议 → 与 xiaozhi-teach-student-analyzer 得分率反哺。 该版本建立了完整的测评-分析闭环,强基于目标与学情。

Install

openclaw skills install xiaozhi-teach-exam-designer

测评设计师 SKILL

一句话定位: 好的测评不是为难学生,而是精准照见每个知识点的掌握状态。


⚠️ 技术实现边界声明

关于"自动出题"机制: 本 SKILL 的题目来源有两种: ① 老师提供题库(推荐:老师自有改编题或公开可引用资源) ② 学科专项 SKILL 自动生成(如数学解题教练、英语写作教练) 本 SKILL 直接调用 LLM 凭空生成题目;不替老师挑选具体题目;只做"双向细目表设计+评分标准+难度梯度控制"。

关于"题目版权"边界: 所有题目必须标注 copyrightStatus(自有/公开可引用/仅存索引);不引用未授权的教辅原题。

关于"自动评分"边界: 本 SKILL 输出评分标准而非"自动判分";自动判分不在本 SKILL 能力范围。


一、核心使命

老师出卷时常见的三个误区:

误区① 拼凑式出题:把往年卷子/教辅题目拼起来,
        不清楚每道题在"测什么"。

误区② 难度一刀切:要么全卷偏难(学生大面积崩溃),
        要么全卷偏易(区分度低)。

误区③ 评分不严格:评分标准模糊,
        不同老师改出来的分数差距大。

本 SKILL 要解决的是:

  • 让每道题都对应明确测评目标:双向细目表驱动出题
  • 让难度梯度可设计:根据测评目的调整 P 值和 D 值
  • 让评分标准可复制:过程分+结果分双轨,不同老师改出来差异小
  • 让测评数据反哺教学:得分率回写 student-analyzer

二、触发时机

触发场景示例语句
设计新试卷"帮我出一份 X 单元试卷" / "出月考卷"
单元小测"出一份 15 分钟小测"
试卷讲评"这份卷子怎么讲评"
试卷分析"这份卷子难度/区分度如何"
命题"如何按双向细目表命题"
评分标准"出评分细则"
题目改编"这道题怎么改"
试卷质量评估"这份卷子出得怎么样"

三、核心流程

                ┌──────────────────────────┐
                │ ① 确认测评目的            │
                │  诊断/形成性/终结性/选拔  │
                └────────────┬─────────────┘
                             ↓
                ┌──────────────────────────┐
                │ ② 设计双向细目表          │
                │  知识点 × 认知层次 矩阵   │
                └────────────┬─────────────┘
                             ↓
                ┌──────────────────────────┐
                │ ③ 控制难度梯度            │
                │  基础/中等/提升/挑战      │
                └────────────┬─────────────┘
                             ↓
                ┌──────────────────────────┐
                │ ④ 筛选/改编题目           │
                │  按细目表匹配             │
                └────────────┬─────────────┘
                             ↓
                ┌──────────────────────────┐
                │ ⑤ 生成评分标准            │
                │  过程分+结果分双轨        │
                └────────────┬─────────────┘
                             ↓
                ┌──────────────────────────┐
                │ ⑥ 考后分析建议            │
                │  难度/区分度/反哺教学     │
                └────────────┬─────────────┘
                             ↓
                ┌──────────────────────────┐
                │ ⑦ 写回 student-analyzer   │
                │  得分率 → 知识点热力图    │
                └──────────────────────────┘

四、测评目的分类

不同目的对应不同设计策略。

┌──────────┬──────────────┬──────────┬──────────┬────────────┐
│ 目的      │ 难度 P        │ 题量      │ 时长      │ 区分度 D    │
├──────────┼──────────────┼──────────┼──────────┼────────────┤
│ 诊断性    │ 0.55-0.70    │ 中等      │ 中等      │ 中等        │
│  (查弱项) │ 适中偏易     │          │          │            │
├──────────┼──────────────┼──────────┼──────────┼────────────┤
│ 形成性    │ 0.65-0.80    │ 较小      │ 较短      │ 良好        │
│  (单元)   │ 适中         │          │          │            │
├──────────┼──────────────┼──────────┼──────────┼────────────┤
│ 终结性    │ 0.55-0.75    │ 较大      │ 较长      │ 优秀        │
│  (期中/末) │ 适中偏难     │          │          │            │
├──────────┼──────────────┼──────────┼──────────┼────────────┤
│ 选拔性    │ 0.35-0.55    │ 大        │ 长        │ 极强        │
│  (竞赛)   │ 难           │          │          │            │
└──────────┴──────────────┴──────────┴──────────┴────────────┘

五、双向细目表设计(核心)

5.1 双向细目表模板

行:知识点(按章节分组) 列:Bloom 认知层次(记忆/理解/应用/分析/评价/创造)

━━━━━━━━━━━━━━━━━━━━━━━━━━━
📋 双向细目表 · [试卷名] · 满分 [N] 分
━━━━━━━━━━━━━━━━━━━━━━━━━━━
      │ 记忆 │ 理解 │ 应用 │ 分析 │ 评价 │ 创造 │ 合计
──────┼──────┼──────┼──────┼──────┼──────┼──────┼─────
知识点①│      │      │      │      │      │      │
知识点②│      │      │      │      │      │      │
知识点③│      │      │      │      │      │      │
知识点④│      │      │      │      │      │      │
知识点⑤│      │      │      │      │      │      │
──────┼──────┼──────┼──────┼──────┼──────┼──────┼─────
合 计  │      │      │      │      │      │      │

■ 知识点-题号对应(填表后倒推)
  知识点①:题 [   ]
  知识点②:题 [   ]
  知识点③:题 [   ]
  知识点④:题 [   ]
  知识点⑤:题 [   ]

■ 认知层次-题号对应
  记忆:题 [   ]   理解:题 [   ]
  应用:题 [   ]   分析:题 [   ]
  评价:题 [   ]   创造:题 [   ]
━━━━━━━━━━━━━━━━━━━━━━━━━━━

5.2 双向细目表填写规则

■ 知识点覆盖
  · 重要知识点至少 1 道题
  · 核心知识点 2-3 道题
  · 选考知识点 1 道题(可标注"选做")

■ 认知层次比例(按测评目的)
  诊断性  :记忆 30% + 理解 30% + 应用 25% + 分析 15% + 评价/创造 0%
  形成性  :记忆 20% + 理解 30% + 应用 30% + 分析 15% + 评价 5%
  终结性  :记忆 15% + 理解 25% + 应用 30% + 分析 20% + 评价 5% + 创造 5%
  选拔性  :记忆 5%  + 理解 15% + 应用 25% + 分析 30% + 评价 15% + 创造 10%

■ 题目数量与分值
  · 单题分值与认知层次正相关(基础题分低,拔高题分高)
  · 总分必须等于各题分值之和

5.3 双向细目表自检

□ 是否每个重要知识点都有 1 道以上题?
□ 是否每个认知层次都有 1 道以上题?
□ 比例是否符合测评目的?
□ 题量是否在合理范围?
  · 诊断性 8-12 题
  · 形成性 12-18 题
  · 终结性 18-25 题
  · 选拔性 20-30 题
□ 是否避免了"全卷都是应用题"或"全卷都是基础题"?

六、难度梯度设计

6.1 难度系数 P

P = 班级平均分 / 满分

按测评目的预设:
  诊断性:P 目标 0.55-0.70(适中偏易,照顾基础学生)
  形成性:P 目标 0.65-0.80(适中,符合课程标准)
  终结性:P 目标 0.55-0.75(适中偏难,区分度好)
  选拔性:P 目标 0.35-0.55(难,拉开差距)

6.2 难度梯度比例

形成性测评(最常见):

  基础题  50%  → 全体学生应会
    P > 0.85,直接套用规则
    占比 50%,分值 50%

  中等题  30%  → 大部分学生应会
    P 0.55-0.85,一步变形
    占比 30%,分值 30%

  提升题  15%  → 优等生主战场
    P 0.30-0.55,综合应用
    占比 15%,分值 15%

  挑战题  5%   → 拔尖学生展示
    P < 0.30,跨章迁移
    占比 5%,分值 5%

6.3 区分度 D

D = 高分组得分率 - 低分组得分率
  D > 0.40 优秀
  D 0.20-0.40 良好
  D < 0.20 不足

每道题都应 D > 0.20;
D < 0.20 的题说明"所有学生都错"或"所有学生都对",
应改题或删题。

七、题目筛选与改编

7.1 题目信息表

每道被选中的题目必须有以下完整信息:

━━━━━━━━━━━━━━━━━━━━━━━━━━━
📋 题目信息表
题号:[   ] · 分值:[   ] · 预计用时:[   ] 分钟
━━━━━━━━━━━━━━━━━━━━━━━━━━━
■ 来源
  出处:[自有/改编自 XX 教辅/原创新题]
  copyrightStatus:[自有/公开可引用/仅存索引]
  改编记录:[原题出处 + 改编点]

■ 测评目标
  知识点:[   ]
  认知层次:[记忆/理解/应用/分析/评价/创造]
  预期难度:[基础/中等/提升/挑战]

■ 内容
  题目:[题干]
  答案:[标准答案]
  评分标准:[过程分+结果分]

■ 质量预测
  预估 P:[   ]
  预估 D:[   ]
  预估完成时间:[   ] 分钟
━━━━━━━━━━━━━━━━━━━━━━━━━━━

7.2 改编原则

■ 改数(参数)
  原题 y=2x+1 → 改编 y=3x-2
  适合:同一知识点不同参数

■ 改问(设问角度)
  原题"求 X" → 改编"判断 X 是否正确"
  适合:换角度测同一概念

■ 改情境(背景)
  原题"出租车" → 改编"网约车"
  适合:让题目更贴近学生生活

■ 改综合度
  单知识点 → 多知识点综合
  适合:测评综合应用能力

7.3 题目版权管理

✅ 自有:老师原创或组内原创
✅ 公开可引用:教材例题、CC 协议资源
⚠️ 仅存索引:教辅原题只记题号,不复制题干
❌ 禁止:未授权复制教辅原题

若引用改编题,必须标注"原题出处 + 改编点"。

八、评分标准生成

每道题配 1 份评分标准。

8.1 评分标准模板

━━━━━━━━━━━━━━━━━━━━━━━━━━━
📋 评分标准 · 第 [N] 题
满分:[   ] 分
━━━━━━━━━━━━━━━━━━━━━━━━━━━
■ 过程分([N] 分)
  · 步骤 1([M] 分):[具体内容]
  · 步骤 2([M] 分):[具体内容]
  · 步骤 3([M] 分):[具体内容]
  · 关键概念/规则([M] 分):[具体内容]

■ 结果分([N] 分)
  · 答案正确([M] 分)
  · 单位/格式([M] 分)

■ 常见错误与扣分
  · 错误 ①:[描述] → 扣 [M] 分
  · 错误 ②:[描述] → 扣 [M] 分

■ 满分模板
  [步骤化满分作答]
━━━━━━━━━━━━━━━━━━━━━━━━━━━

8.2 评分标准严格化

■ 过程分细化
  关键步骤必须给过程分(不能跳过)
  步骤 1 + 步骤 2 + 步骤 3 = 过程分
  避免"答案对了就给满分"的粗放评分

■ 结果分明确
  答案对 + 过程对 = 满分
  答案对 + 过程有错 = 部分分
  答案错 + 过程对 = 部分分

■ 评分一致性
  不同老师按本标准改出来差距应 < 3 分
  若差距 > 5 分,说明标准不够明确

8.3 简明答案评分(客观题)

选择题 / 填空题 / 判断题:
  正确答案:[X]
  错误答案扣分:全错 0 分,部分对酌情

简答题(无固定过程):
  关键点 ①([M] 分):[具体内容]
  关键点 ②([M] 分):[具体内容]
  表达清晰度([M] 分):[酌情]

九、考后分析建议

9.1 试卷质量分析

■ 整体质量
  · 实际 P:[   ](与目标 P 对比)
  · 实际 D:[   ](区分度评估)
  · 实际平均分 / 中位数 / 标准差
  · 优秀率 / 及格率 / 低分率

■ 题目质量
  · D < 0.20 的题:[列表] → 改题或删题
  · P > 0.95 的题(太易):[列表] → 升级为讲解素材
  · P < 0.30 的题(太难):[列表] → 拆分或降级

9.2 知识点热力图

┌────────────────────────────────────┐
│ 知识点得分率热力图                   │
├────────────────────────────────────┤
│ 知识点① 🟢 82%                     │
│ 知识点② 🟡 56%                     │
│ 知识点③ 🔴 32%  ← 共性弱项        │
│ 知识点④ 🟡 65%                     │
│ 知识点⑤ 🔴 38%  ← 共性弱项        │
└────────────────────────────────────┘
图例:🔴 < 40% / 🟡 40-70% / 🟢 > 70%

9.3 写回 student-analyzer

写:
  · 各题得分率
  · 各知识点得分率
  · 各认知层次得分率
  · 区分度异常的题目

→ student-analyzer 接收后生成:
  · 班级画像
  · 个体诊断卡
  · 教学调整建议

十、与上游/下游 SKILL 的协作

10.1 协作流图

              ┌────────────────────────┐
              │ xiaozhi-teach-         │
              │  lesson-planner        │
              │ (教学目标)           │
              └───────────┬────────────┘
                          │
                          ↓
              ┌────────────────────────┐
              │ xiaozhi-teach-         │
              │  exam-designer         │
              │  (本 SKILL)           │
              └───────────┬────────────┘
                          │
                          ↓ 得分率反哺
              ┌────────────────────────┐
              │ xiaozhi-teach-         │
              │  student-analyzer      │
              │ (学情更新)           │
              └───────────┬────────────┘
                          │
        ┌─────────────────┼─────────────────┐
        ↓                 ↓                 ↓
  lesson-planner    assignment-     classroom-coach
  (教案调整)      designer        (讲评策略)
                    (作业调整)

10.2 接口

读:
  lessonPlan.emphasis       → 试卷侧重点
  studentAnalyzer.classDistribution → 难度梯度参考
  studentAnalyzer.weaknessRank      → 必须覆盖的弱项

写:
  examBlueprint.actualDifficulty → 实际难度
  examBlueprint.discrimination  → 实际区分度
  examBlueprint.itemQuality     → 题目质量评估
  examBlueprint.scoreRate       → 得分率(→ student-analyzer)

十一、字段级高敏信息防护

✅ 试卷中可出现学生真实姓名(如:座位号、学号)
❌ 试卷分析报告禁止点名
✅ 写回数据:聚合得分率
❌ 不写回:单个学生分数+排名

✅ 试卷讲评可以用化名
❌ 禁止:把"差生"试卷公示

十二、行为准则

✅ 应该做❌ 不能做
双向细目表先于出题直接从题库拼凑
每题配评分标准只画对错
难度按测评目的设计全卷偏难或全卷偏易
区分度 D > 0.20接受 D < 0.20 的题
标注题目版权复制未授权教辅原题
考后分析反哺教学考完就归档
写回数据用聚合形式在公开报告中点名

十三、与其他 SKILL 的协同清单

测评设计师
    <── xiaozhi-teach-lesson-planner(教学目标)
    <── xiaozhi-teach-student-analyzer(学情分层)
    ──→ xiaozhi-teach-student-analyzer(得分率反哺)
    ──→ xiaozhi-teach-lesson-planner(教案调整)
    ──→ xiaozhi-teach-assignment-designer(作业调整)
    ──→ xiaozhi-teach-classroom-coach(讲评策略)
    ──→ 学科专项 SKILL(题目生成)

禁止行为

  • 禁止 AI 凭空生成具体题目内容
  • 禁止复制未授权教辅原题
  • 禁止考后在公开报告中点名
  • 禁止用分数给学生贴长期标签
  • 禁止在试卷讲评中羞辱低分学生

十四、参考资源

  • references/exam-blueprint.md — 试卷蓝图与双向细目表模板
  • references/item-bank-mgmt.md — 题库管理规范(待补)
  • references/post-exam-analysis.md — 考后分析模板(待补)

🦞 小龙虾说: "好的试卷不是用来难倒学生的, 是用来照亮他们的—— 照亮已经掌握的,照亮还没掌握的, 照亮老师下一步该讲什么。"