Install
openclaw skills install xiaozhi-teach-exam-designer帮助老师从"拼凑试卷"升级为"科学测评设计"。 当老师说"帮我出一份试卷"、"设计一个单元测验"、 "怎么控制试卷难度"、"出一份月考卷"、 "这份卷子质量如何"时,必须激活此SKILL。 核心工作流:确认测评目标 → 设计双向细目表 → 筛选/改编题目 → 控制难度梯度 → 生成评分标准 → 考后分析建议 → 与 xiaozhi-teach-student-analyzer 得分率反哺。 该版本建立了完整的测评-分析闭环,强基于目标与学情。
openclaw skills install xiaozhi-teach-exam-designer一句话定位: 好的测评不是为难学生,而是精准照见每个知识点的掌握状态。
关于"自动出题"机制: 本 SKILL 的题目来源有两种: ① 老师提供题库(推荐:老师自有改编题或公开可引用资源) ② 学科专项 SKILL 自动生成(如数学解题教练、英语写作教练) 本 SKILL 不直接调用 LLM 凭空生成题目;不替老师挑选具体题目;只做"双向细目表设计+评分标准+难度梯度控制"。
关于"题目版权"边界: 所有题目必须标注 copyrightStatus(自有/公开可引用/仅存索引);不引用未授权的教辅原题。
关于"自动评分"边界: 本 SKILL 输出评分标准而非"自动判分";自动判分不在本 SKILL 能力范围。
老师出卷时常见的三个误区:
误区① 拼凑式出题:把往年卷子/教辅题目拼起来,
不清楚每道题在"测什么"。
误区② 难度一刀切:要么全卷偏难(学生大面积崩溃),
要么全卷偏易(区分度低)。
误区③ 评分不严格:评分标准模糊,
不同老师改出来的分数差距大。
本 SKILL 要解决的是:
| 触发场景 | 示例语句 |
|---|---|
| 设计新试卷 | "帮我出一份 X 单元试卷" / "出月考卷" |
| 单元小测 | "出一份 15 分钟小测" |
| 试卷讲评 | "这份卷子怎么讲评" |
| 试卷分析 | "这份卷子难度/区分度如何" |
| 命题 | "如何按双向细目表命题" |
| 评分标准 | "出评分细则" |
| 题目改编 | "这道题怎么改" |
| 试卷质量评估 | "这份卷子出得怎么样" |
┌──────────────────────────┐
│ ① 确认测评目的 │
│ 诊断/形成性/终结性/选拔 │
└────────────┬─────────────┘
↓
┌──────────────────────────┐
│ ② 设计双向细目表 │
│ 知识点 × 认知层次 矩阵 │
└────────────┬─────────────┘
↓
┌──────────────────────────┐
│ ③ 控制难度梯度 │
│ 基础/中等/提升/挑战 │
└────────────┬─────────────┘
↓
┌──────────────────────────┐
│ ④ 筛选/改编题目 │
│ 按细目表匹配 │
└────────────┬─────────────┘
↓
┌──────────────────────────┐
│ ⑤ 生成评分标准 │
│ 过程分+结果分双轨 │
└────────────┬─────────────┘
↓
┌──────────────────────────┐
│ ⑥ 考后分析建议 │
│ 难度/区分度/反哺教学 │
└────────────┬─────────────┘
↓
┌──────────────────────────┐
│ ⑦ 写回 student-analyzer │
│ 得分率 → 知识点热力图 │
└──────────────────────────┘
不同目的对应不同设计策略。
┌──────────┬──────────────┬──────────┬──────────┬────────────┐
│ 目的 │ 难度 P │ 题量 │ 时长 │ 区分度 D │
├──────────┼──────────────┼──────────┼──────────┼────────────┤
│ 诊断性 │ 0.55-0.70 │ 中等 │ 中等 │ 中等 │
│ (查弱项) │ 适中偏易 │ │ │ │
├──────────┼──────────────┼──────────┼──────────┼────────────┤
│ 形成性 │ 0.65-0.80 │ 较小 │ 较短 │ 良好 │
│ (单元) │ 适中 │ │ │ │
├──────────┼──────────────┼──────────┼──────────┼────────────┤
│ 终结性 │ 0.55-0.75 │ 较大 │ 较长 │ 优秀 │
│ (期中/末) │ 适中偏难 │ │ │ │
├──────────┼──────────────┼──────────┼──────────┼────────────┤
│ 选拔性 │ 0.35-0.55 │ 大 │ 长 │ 极强 │
│ (竞赛) │ 难 │ │ │ │
└──────────┴──────────────┴──────────┴──────────┴────────────┘
行:知识点(按章节分组) 列:Bloom 认知层次(记忆/理解/应用/分析/评价/创造)
━━━━━━━━━━━━━━━━━━━━━━━━━━━
📋 双向细目表 · [试卷名] · 满分 [N] 分
━━━━━━━━━━━━━━━━━━━━━━━━━━━
│ 记忆 │ 理解 │ 应用 │ 分析 │ 评价 │ 创造 │ 合计
──────┼──────┼──────┼──────┼──────┼──────┼──────┼─────
知识点①│ │ │ │ │ │ │
知识点②│ │ │ │ │ │ │
知识点③│ │ │ │ │ │ │
知识点④│ │ │ │ │ │ │
知识点⑤│ │ │ │ │ │ │
──────┼──────┼──────┼──────┼──────┼──────┼──────┼─────
合 计 │ │ │ │ │ │ │
■ 知识点-题号对应(填表后倒推)
知识点①:题 [ ]
知识点②:题 [ ]
知识点③:题 [ ]
知识点④:题 [ ]
知识点⑤:题 [ ]
■ 认知层次-题号对应
记忆:题 [ ] 理解:题 [ ]
应用:题 [ ] 分析:题 [ ]
评价:题 [ ] 创造:题 [ ]
━━━━━━━━━━━━━━━━━━━━━━━━━━━
■ 知识点覆盖
· 重要知识点至少 1 道题
· 核心知识点 2-3 道题
· 选考知识点 1 道题(可标注"选做")
■ 认知层次比例(按测评目的)
诊断性 :记忆 30% + 理解 30% + 应用 25% + 分析 15% + 评价/创造 0%
形成性 :记忆 20% + 理解 30% + 应用 30% + 分析 15% + 评价 5%
终结性 :记忆 15% + 理解 25% + 应用 30% + 分析 20% + 评价 5% + 创造 5%
选拔性 :记忆 5% + 理解 15% + 应用 25% + 分析 30% + 评价 15% + 创造 10%
■ 题目数量与分值
· 单题分值与认知层次正相关(基础题分低,拔高题分高)
· 总分必须等于各题分值之和
□ 是否每个重要知识点都有 1 道以上题?
□ 是否每个认知层次都有 1 道以上题?
□ 比例是否符合测评目的?
□ 题量是否在合理范围?
· 诊断性 8-12 题
· 形成性 12-18 题
· 终结性 18-25 题
· 选拔性 20-30 题
□ 是否避免了"全卷都是应用题"或"全卷都是基础题"?
P = 班级平均分 / 满分
按测评目的预设:
诊断性:P 目标 0.55-0.70(适中偏易,照顾基础学生)
形成性:P 目标 0.65-0.80(适中,符合课程标准)
终结性:P 目标 0.55-0.75(适中偏难,区分度好)
选拔性:P 目标 0.35-0.55(难,拉开差距)
形成性测评(最常见):
基础题 50% → 全体学生应会
P > 0.85,直接套用规则
占比 50%,分值 50%
中等题 30% → 大部分学生应会
P 0.55-0.85,一步变形
占比 30%,分值 30%
提升题 15% → 优等生主战场
P 0.30-0.55,综合应用
占比 15%,分值 15%
挑战题 5% → 拔尖学生展示
P < 0.30,跨章迁移
占比 5%,分值 5%
D = 高分组得分率 - 低分组得分率
D > 0.40 优秀
D 0.20-0.40 良好
D < 0.20 不足
每道题都应 D > 0.20;
D < 0.20 的题说明"所有学生都错"或"所有学生都对",
应改题或删题。
每道被选中的题目必须有以下完整信息:
━━━━━━━━━━━━━━━━━━━━━━━━━━━
📋 题目信息表
题号:[ ] · 分值:[ ] · 预计用时:[ ] 分钟
━━━━━━━━━━━━━━━━━━━━━━━━━━━
■ 来源
出处:[自有/改编自 XX 教辅/原创新题]
copyrightStatus:[自有/公开可引用/仅存索引]
改编记录:[原题出处 + 改编点]
■ 测评目标
知识点:[ ]
认知层次:[记忆/理解/应用/分析/评价/创造]
预期难度:[基础/中等/提升/挑战]
■ 内容
题目:[题干]
答案:[标准答案]
评分标准:[过程分+结果分]
■ 质量预测
预估 P:[ ]
预估 D:[ ]
预估完成时间:[ ] 分钟
━━━━━━━━━━━━━━━━━━━━━━━━━━━
■ 改数(参数)
原题 y=2x+1 → 改编 y=3x-2
适合:同一知识点不同参数
■ 改问(设问角度)
原题"求 X" → 改编"判断 X 是否正确"
适合:换角度测同一概念
■ 改情境(背景)
原题"出租车" → 改编"网约车"
适合:让题目更贴近学生生活
■ 改综合度
单知识点 → 多知识点综合
适合:测评综合应用能力
✅ 自有:老师原创或组内原创
✅ 公开可引用:教材例题、CC 协议资源
⚠️ 仅存索引:教辅原题只记题号,不复制题干
❌ 禁止:未授权复制教辅原题
若引用改编题,必须标注"原题出处 + 改编点"。
每道题配 1 份评分标准。
━━━━━━━━━━━━━━━━━━━━━━━━━━━
📋 评分标准 · 第 [N] 题
满分:[ ] 分
━━━━━━━━━━━━━━━━━━━━━━━━━━━
■ 过程分([N] 分)
· 步骤 1([M] 分):[具体内容]
· 步骤 2([M] 分):[具体内容]
· 步骤 3([M] 分):[具体内容]
· 关键概念/规则([M] 分):[具体内容]
■ 结果分([N] 分)
· 答案正确([M] 分)
· 单位/格式([M] 分)
■ 常见错误与扣分
· 错误 ①:[描述] → 扣 [M] 分
· 错误 ②:[描述] → 扣 [M] 分
■ 满分模板
[步骤化满分作答]
━━━━━━━━━━━━━━━━━━━━━━━━━━━
■ 过程分细化
关键步骤必须给过程分(不能跳过)
步骤 1 + 步骤 2 + 步骤 3 = 过程分
避免"答案对了就给满分"的粗放评分
■ 结果分明确
答案对 + 过程对 = 满分
答案对 + 过程有错 = 部分分
答案错 + 过程对 = 部分分
■ 评分一致性
不同老师按本标准改出来差距应 < 3 分
若差距 > 5 分,说明标准不够明确
选择题 / 填空题 / 判断题:
正确答案:[X]
错误答案扣分:全错 0 分,部分对酌情
简答题(无固定过程):
关键点 ①([M] 分):[具体内容]
关键点 ②([M] 分):[具体内容]
表达清晰度([M] 分):[酌情]
■ 整体质量
· 实际 P:[ ](与目标 P 对比)
· 实际 D:[ ](区分度评估)
· 实际平均分 / 中位数 / 标准差
· 优秀率 / 及格率 / 低分率
■ 题目质量
· D < 0.20 的题:[列表] → 改题或删题
· P > 0.95 的题(太易):[列表] → 升级为讲解素材
· P < 0.30 的题(太难):[列表] → 拆分或降级
┌────────────────────────────────────┐
│ 知识点得分率热力图 │
├────────────────────────────────────┤
│ 知识点① 🟢 82% │
│ 知识点② 🟡 56% │
│ 知识点③ 🔴 32% ← 共性弱项 │
│ 知识点④ 🟡 65% │
│ 知识点⑤ 🔴 38% ← 共性弱项 │
└────────────────────────────────────┘
图例:🔴 < 40% / 🟡 40-70% / 🟢 > 70%
写:
· 各题得分率
· 各知识点得分率
· 各认知层次得分率
· 区分度异常的题目
→ student-analyzer 接收后生成:
· 班级画像
· 个体诊断卡
· 教学调整建议
┌────────────────────────┐
│ xiaozhi-teach- │
│ lesson-planner │
│ (教学目标) │
└───────────┬────────────┘
│
↓
┌────────────────────────┐
│ xiaozhi-teach- │
│ exam-designer │
│ (本 SKILL) │
└───────────┬────────────┘
│
↓ 得分率反哺
┌────────────────────────┐
│ xiaozhi-teach- │
│ student-analyzer │
│ (学情更新) │
└───────────┬────────────┘
│
┌─────────────────┼─────────────────┐
↓ ↓ ↓
lesson-planner assignment- classroom-coach
(教案调整) designer (讲评策略)
(作业调整)
读:
lessonPlan.emphasis → 试卷侧重点
studentAnalyzer.classDistribution → 难度梯度参考
studentAnalyzer.weaknessRank → 必须覆盖的弱项
写:
examBlueprint.actualDifficulty → 实际难度
examBlueprint.discrimination → 实际区分度
examBlueprint.itemQuality → 题目质量评估
examBlueprint.scoreRate → 得分率(→ student-analyzer)
✅ 试卷中可出现学生真实姓名(如:座位号、学号)
❌ 试卷分析报告禁止点名
✅ 写回数据:聚合得分率
❌ 不写回:单个学生分数+排名
✅ 试卷讲评可以用化名
❌ 禁止:把"差生"试卷公示
| ✅ 应该做 | ❌ 不能做 |
|---|---|
| 双向细目表先于出题 | 直接从题库拼凑 |
| 每题配评分标准 | 只画对错 |
| 难度按测评目的设计 | 全卷偏难或全卷偏易 |
| 区分度 D > 0.20 | 接受 D < 0.20 的题 |
| 标注题目版权 | 复制未授权教辅原题 |
| 考后分析反哺教学 | 考完就归档 |
| 写回数据用聚合形式 | 在公开报告中点名 |
测评设计师
<── xiaozhi-teach-lesson-planner(教学目标)
<── xiaozhi-teach-student-analyzer(学情分层)
──→ xiaozhi-teach-student-analyzer(得分率反哺)
──→ xiaozhi-teach-lesson-planner(教案调整)
──→ xiaozhi-teach-assignment-designer(作业调整)
──→ xiaozhi-teach-classroom-coach(讲评策略)
──→ 学科专项 SKILL(题目生成)
禁止行为:
references/exam-blueprint.md — 试卷蓝图与双向细目表模板references/item-bank-mgmt.md — 题库管理规范(待补)references/post-exam-analysis.md — 考后分析模板(待补)🦞 小龙虾说: "好的试卷不是用来难倒学生的, 是用来照亮他们的—— 照亮已经掌握的,照亮还没掌握的, 照亮老师下一步该讲什么。"