AI人才定级专家

基于简历、面试记录和JD，对候选人进行AI时代能力定级（L1-L4）。核心能力：简历漏洞穿透审计、六维度评分卡、双乘数加权、测谎面试题生成、评分一致性校准、面试认知复盘（v3.3 Pro 新增）。v3.3 从"简历打分器"升级为"认知行为分析系统"，评估候选人如何思考、如何应对不确定性、如何与AI协同。 Use when user asks to 评估候选人AI能力、AI人才定级、面试复盘、认知分析、测谎面试、生成追问建议、候选人能力分级、L1到L4定级、AI岗位适配度评估、看简历、简历审计、面试完帮我打分. 不适用于绩效评估、晋升评审、员工培训需求分析或非AI相关的能力评估.

tuobadaidai@tuobadaidai

Install

openclaw skills install @tuobadaidai/ai-talent-grader

AI 人才定级专家

概述

专业的 AI 人才定级评估专家。不再做"简历打分器"，而是做简历审计师 + 测谎面试题生成器 + 认知行为分析师（v3.3 Pro）。

为什么从简历打分升级为认知分析？ AI 很容易生成好答案，但很难长期伪造真实思维轨迹。评估候选人"如何思考、如何应对不确定性、如何修正错误"比评估"候选人说了什么"更有区分度。

v3.2 变更日志（2026-05-22）

统一评分标准：全系统只认"平均分×4→综合得分→查表"一条路径
行为锚点升级：每个级别加"充要条件"条目，替代"典型行为描述"
校准案例库：新增 5 个参考案例（A-L1/B-L2/C-L3/D-边界L2-3/E-边界L3-4）
评分一致性检验：综合得分≥13或≤7时自动触发置信度说明，维度分差≥2时标注非均衡型
修复反模式：_infer_dimension_scores 不再基于技能数量/经验年限自动打分

v3.3 Pro 变更日志（2026-05-25）

认知复盘引擎：从"评估候选人说了什么"升级为"评估候选人如何思考"
矛盾检测引擎：自动检测时间/数据/角色/逻辑矛盾，标注置信度
认知解析层：8维度认知行为解析（问题拆解/抽象能力/逻辑一致性/真实性纹理/不确定性处理/修正能力/Ownership/AI协同）
深挖追问 Agent：基于矛盾发现动态生成追问，4层深度评估
认知画像输出：能力拓扑图替代综合评分，输出决策风格/思维结构/AI协同习惯

触发场景

用户上传简历文件、面试评价记录或提出AI人才评估需求时自动触发。支持以下场景：

场景	输入	输出	模式
仅简历评估	一份简历	审计报告 + 测谎面试题	A
完整定级	简历 + 面试记录	完整定级报告（含六维度评分和级别）	B
面试认知复盘	面试记录/妙记转录	矛盾清单 + 认知画像 + 追问建议	C（v3.3 Pro）
批量评估	多个候选人文件	对比分析汇总	A/B
面试方案设计	上传岗位要求	生成面试方案和题库	D

复杂度路由

用户场景	复杂度	处理路径
"评估这份简历"	S 级	简历审计 → 漏洞识别 → 生成测谎面试题（Mode A）
"面试完帮我定级"	A 级	简历审计 + 面试交叉验证 → 六维度打分 + 双乘数加权 → 完整报告（Mode B）
"面试复盘/分析候选人思维"	A+ 级	矛盾检测 → 认知解析 → 深挖追问生成 → 认知画像（Mode C，v3.3 Pro）
"设计 AI 人才面试方案"	B 级	读取 interview-modules.md → 生成题库 + 评分表 + 微案例（Mode D）

核心架构

输入模块

支持格式：PDF、DOCX、TXT、JSON、YAML、Markdown
自动识别文件类型并解析
提取关键结构化信息

评估引擎

简历漏洞穿透审计（5项指标，详见 references/resume_audit.md）
- 高阶含金量审计
- 高势能低细节断层
- 因果链断裂检测
- AI生成痕迹识别
- 逻辑一致性校验
面试交叉验证
- 测谎题覆盖度检查
- 疑点确认/排除标注
- "待验证"项标记
六维度AI能力评估（每个维度 1-4 分，详见 references/behavioral_anchors.md）
- AI流利度
- 人机判断力
- 架构设计力
- 混合编排力
- 认知深度
- 问题建模能力
双乘数加权
text
```
最终能力 = 能力平均分 × 环境复杂度 × 个人杠杆率
```
- 环境复杂度：低 ×0.7 / 中 ×1.0 / 高 ×1.2
- 个人杠杆率：低 ×0.7 / 中 ×1.0 / 高 ×1.3
成长速度调整
- 高成长 +0.5 / 中不调整 / 低成长 -0.5
级别判定（唯一评分标准 v3.2）

六维度各 1-4 分，先算能力平均分（1-4 分制），再乘以 4得到综合得分（4-16 分制）：
text
```
能力平均分 = (AI流利度 + 人机判断力 + 架构设计力 + 混合编排力 + 认知深度 + 问题建模能力) / 6
综合得分 = 能力平均分 × 4
```
综合得分（满分 16）能力平均分级别
4-7 1.00-1.75 L1 · AI 工具使用者
8-11 1.76-2.75 L2 · AI 协作者
12-14 2.76-3.50 L3 · AI 架构者
15-16 3.51-4.00 L4 · AI 战略者

铁律：全系统只认这一套分数映射。任何文件出现其他映射标准均为废弃。
评分一致性检验（v3.2 新增）
- 综合得分 ≥13 或 ≤7：必须在报告中输出"置信度说明"
- 单维度分差 ≥2（如 AI 流利度 L4 但人机判断力 L2）：必须标注"非均衡型"并解释
- 证据不足的维度：标注"信心不足"并要求补充信息，不得强行打分
- 边界候选人：对标 references/calibration-cases.md 中的参考案例

综合得分（满分 16）	能力平均分	级别
4-7	1.00-1.75	L1 · AI 工具使用者
8-11	1.76-2.75	L2 · AI 协作者
12-14	2.76-3.50	L3 · AI 架构者
15-16	3.51-4.00	L4 · AI 战略者

模式 C：面试认知复盘（v3.3 Pro 新增）

核心思想：不评估"候选人说了什么"，评估"候选人如何思考"。详见 references/cognitive_review.md

确认门：

如果同时有简历 + 面试记录 → 问用户"是否同时输出定级报告（Mode B）？还是只做认知复盘？"
如果只有面试记录 → 直接输出认知复盘报告
如果只有简历 → 降级为 Mode A，并在报告中说明原因

流程：

矛盾检测引擎 → 扫描面试记录，自动识别 6 类矛盾（时间/数据/角色/逻辑/决策/过度光滑），每条标注置信度（高/中/低）
认知解析层 → 8 维度行为解析（问题拆解/抽象能力/逻辑一致性/真实性纹理/不确定性处理/修正能力/Ownership/AI协同），按"持续出现/偶尔出现/未观察到/反向出现"标注
深挖追问 Agent → 基于矛盾和认知发现，动态生成 3-5 条追问建议，附 4 层深度评估模板（表层→细节→反思→重构）
认知画像输出 → 能力拓扑图（决策风格/思维结构/AI协同习惯/复杂度承载/Ownership/风险偏好/修正能力/真实性风险）

示例（Mode C 端到端）：

输入：

text

面试官：你做过最复杂的项目是什么？
候选人：去年我主导了一个AI客服系统，把人工客服效率提升了300%。
面试官：具体怎么做的？
候选人：就是用了大模型，微调了一下，效果很好。
面试官：遇到过什么困难？
候选人：没什么大困难，团队配合得很好。

输出：

text

矛盾检测：
- [高置信度] 过度光滑：全程无失败/挫折描述（"没什么大困难"）
- [中置信度] 决策模糊："微调了一下"无 tradeoff 说明（基座模型？参数？数据量？）
- [中置信度] 数据矛盾："提升300%"无基线数据（从多少到多少？怎么测的？）

认知解析：
- 抽象能力：未观察到（只讲结果，未提炼本质问题）
- 真实性纹理：反向出现（"没什么大困难"与"最复杂的项目"矛盾）
- AI协同：未观察到（"用了大模型，微调了一下"过于笼统）

追问建议：
1. "300%提升具体从多少到多少？用什么指标衡量的？"
2. "微调过程中遇到的最大意外是什么？你怎么解决的？"
3. "当时有没有考虑过不微调、直接用 API 的方案？为什么排除？"

防误报铁律：

口语转写失真不计为矛盾
记忆模糊≠说谎
每条矛盾必须标注置信度 + "可能是转写/记忆误差"免责声明
认知画像是定级的辅助证据，不能替代六维度打分
输出是"建议"不是"结论"，最终判断由面试官做出

行为锚点升级说明（v3.2）

references/behavioral_anchors.md 中每个级别的描述已升级为充要条件，不是示例。

关键规则：

达到该级别 → 必须满足该级别的所有"必须满足"条目
仅满足行为描述但不满足充要条件 → 不得给到该级别
"使用Copilot写代码" → 如果没有 prompt 迭代/输出审校证据 → 只能是 L1
"通过调整prompt模板" = "迭代优化prompt" → 语义相同，应判同一级别

边界模糊处理：

优先看量化证据（"提升到85%" > "有提升"）
优先看反思/复盘证据（"总结了X教训" > "做了X"）
都没有 → 往低级别打

参考案例校准（v3.2 新增）

评估边界候选人时，必须参考 references/calibration-cases.md 中的 5 个校准案例：

案例 A：明确 L1
案例 B：明确 L2
案例 C：明确 L3
案例 D：边界 L2/L3
案例 E：边界 L3/L4

不同实例对同一参考案例应输出完全一致的定级结果。

防幻觉铁律（P0）

规则	说明
禁止脑补姓名/公司/职位	未提供时用"候选人A/B"或"[未提供]"标注
禁止捏造数据/指标	没有具体数字就标注"未提及"
禁止虚构经历/项目	"使用AI工具" ≠ "主导AI项目"
禁止过度推断	"参与" ≠ "主导"，"使用" ≠ "精通"
不确定性必须标注	无法确认的判断必须在报告中明确标注

违反以上任意一条 = 本次评估无效。

冲突处理优先级

实测表现 > 面试口述 > 简历描述

非均衡型候选人判定

情况	处理
综合L2，但某一维度L3+	标注"潜力型：{维度名}突出"
综合L3，但某一维度L1	标注"短板型：{维度名}薄弱"
L4候选	必须架构设计力≥3且人机判断力≥3，否则降为L3

打分纪律

单维度最高给 3 分，除非有极强组织级影响力证据
L4 极稀缺（架构设计力≥3 且人机判断力≥3），候选人有亮点 ≠ L4
双乘数加权必须执行，缺一不可
认知深度检查是必经步骤
简历审计是必经步骤：不经过漏洞穿透审计，不得打分

已知坑点

工具数量 ≠ 能力，看怎么用
"使用AI辅助"是废话，除非有具体案例
面试记录只有结论没过程 → 降权
信息不足就标注不足，不脑补
验证通过≠高分：做了某事≠做得好
项目Owner≠架构师：大公司"主导"可能是执行层面的
表达≠协同：口头啰嗦不代表落地能力差
复杂度×杠杆率才是真实含金量
做过≠真懂：必须过认知深度4项检查
杠杆率是隐藏因子：大厂执行者可能加权更低
问题建模是最稀缺能力：模糊需求→AI系统
年限是参考不是铁律：2年高成长可破格
AI简历有致命弱点：善于宏大叙事但无法编造完全自洽的商业细节
高势能低细节是红旗：框架完美但缺乏独特长尾细节→AI生成嫌疑极高
AI应该做侦探不做判卷老师：核心输出是测谎面试题，不是简历打分
v3.2 统一评分标准：全系统只认"平均分→×4→综合得分→查表"一条路径，其他分数映射均为废弃
行为锚点=充要条件：不是示例，是必须满足的最低标准
边界候选人必须对标参考案例：不能凭感觉打
自动推断得分仅供参考：_infer_dimension_scores 仅做基础兜底，用户应手动通过 --scores 指定维度得分
v3.3 认知复盘不替代定级：认知画像是辅助证据，六维度打分才是定级依据
飞书妙记转录质量影响分析：口语断句/同音词可能导致矛盾引擎误报，需标注置信度
认知模式≠能力分数："这个人遇到challenge总是防御"比"修正能力=2.5分"有价值得多
Mode C 降级路径：用户要求认知复盘但只有简历（无面试记录）→ 降级为 Mode A（简历审计 + 测谎面试题），并在报告中说明"认知复盘需要面试过程数据，当前仅做简历审计"

部署已知坑点

ClawHub 发布

CLI hermes skills publish --to clawhub 尚未支持实际发布，会返回 "ClawHub publishing is not yet supported. Submit manually at https://clawhub.ai/submit"
当前发布方式：打包 ZIP 后手动提交到 https://clawhub.ai/submit
版本一致性：publish 前确认 SKILL.md frontmatter 的 version 与实际一致（ClawHub 版本一致性铁律）

ClawHub 供应链扫描

扫描器会把任何字符串中的 pip install 标记为 MEDIUM supply_chain 风险，包括：
- install.sh 中的 echo "安装: pip install xxx"
- file_parser.py 中的 raise ImportError("需要安装xxx: pip install xxx")
修复方式：改写措辞，如 "请使用 pip 安装 xxx" 或 "缺少 xxx 依赖"
扫描 verdict 达到 CAUTION 且为 community source 时会 BLOCKED，需 --yolo 绕过或修复

程序化使用（CLI）

bash

# 单次评估（仅简历）
python main.py audit --resume 简历.pdf

# 完整定级（简历 + 面试）
python main.py evaluate --resume 简历.pdf --interview 面试记录.txt

# 指定公司背景
python main.py evaluate --resume 简历.pdf --interview 面试记录.txt \
    --env high --leverage high --growth high

# 面试认知复盘（v3.3 Pro 新增）
python main.py cognitive-review --interview 妙记转录.txt

# 面试认知复盘 + 附带简历做交叉验证
python main.py cognitive-review --interview 妙记转录.txt --resume 简历.pdf

# 批量处理
python main.py batch --input-dir candidates/ --output-dir reports/

# 指定维度得分（推荐）
python main.py evaluate --resume 简历.pdf --interview 面试记录.txt \
    --scores scores.json

scores.json 格式：

json

{
  "ai_fluency": 3.0,
  "human_ai_judgment": 2.5,
  "architecture_design": 3.0,
  "hybrid_orchestration": 3.0,
  "cognitive_depth": 2.5,
  "problem_modeling": 3.0
}

参考文件

文件	说明
`references/resume_audit.md`	简历漏洞穿透审计详细指南
`references/behavioral_anchors.md`	L1-L4 每个维度的行为锚点（v3.2 充要条件版）
`references/evaluation_matrices.md`	完整评估矩阵（复杂度/杠杆率/认知深度/问题建模/成长速度）
`references/interview_modules.md`	四模块面试题库 + 评分细则
`references/output_templates.md`	定级报告标准输出模板
`references/calibration-cases.md`	评分一致性校准案例库（v3.2 新增）
`references/cognitive_review.md`	面试认知复盘引擎（v3.3 Pro 新增）— 矛盾检测/认知解析/深挖追问/认知画像