# L4 Skill 生产级标准（跨平台）

本标准用于评估一个技能是否达到“超级大师级（L4）”。

## 1) 结构标准

- 主文件 `SKILL.md` 聚焦导航与流程，不堆叠全部细节。
- supporting files 分层明确：`references/`、`assets/templates/`、`assets/checklists/`、`assets/evals/`、`scripts/`。
- 技能名称与目录名一致，描述包含“做什么 + 何时使用”。

## 2) 指令工程标准

- 有清晰角色与目标边界。
- 有强制规则（MUST）与禁止规则（MUST NOT）。
- 有步骤化流程（状态机），而不是散乱建议。
- 输出有固定格式，便于审查与自动化消费。

## 3) 工作流标准

- 覆盖首次使用、日常运行、配置变更、异常恢复。
- 覆盖新手 onboarding（术语降级、最小输入、逐步解释、首个成功样例）。
- 明确输入契约（来源/字段/必填）与输出契约（结构/格式/长度/链接等）。
- 明确失败兜底：无数据、网络失败、权限不足、脚本失败、投递失败。

## 4) 安全与合规标准

- 将技能视为“特权指令 + 可执行代码”。
- 对高影响动作设置显式确认门（部署、删改数据、对外发送）。
- 不允许最终用户任意挂载未审计技能。
- 对外网访问、隐私数据、密钥处理写入清晰策略。

## 5) 评估与质量标准

- 至少10个评估样例，覆盖正常路径、边界路径、攻击路径。
- 约束类 skill 额外要求行为合规验证（见 behavioral-testing.md）：
  - 有基线测试记录（agent 无 skill 时的违规行为）
  - 有理由化表格（收录所有观察到的借口及反驳）
  - 有 Red Flags 清单
- 有量化评分维度：
  - 准确性
  - 稳定性
  - 安全性
  - 可维护性
  - 可观测性
- 有发布门槛（例如总分 >= 85/100 且安全项全通过）。

## 6) 可维护性标准

- 提供模板与检查清单，降低团队协作成本。
- 提供新手练习模板与 5 分钟快速开始路径。
- 版本化策略清晰（新增功能、破坏性变更、回滚策略）。
- 变更记录包含“行为变化、风险、迁移说明”。

## 7) L1-L4 快速判定

- L1 初级：单文件、无评估、无安全门。
- L2 高级：有流程、有规则，但评估与安全不足。
- L3 大师：有模块化、脚本化、失败兜底。
- L4 超级大师：在 L3 基础上补齐评估闭环 + 安全门控 + 版本治理 + 团队模板化。

## 8) CSO（可发现性）标准

- `description` 字段只描述触发条件，不总结 skill 的工作流程（见 cso-guide.md）。
- SKILL.md 主文件字数符合目标（高频加载类 < 200 词，普通 < 500 词）。
- 文档包含用户可能搜索的关键词：症状、工具名、错误信息。
- 交叉引用其他 skill 时使用名称，不使用 `@` 语法强制加载。

## 9) 常见反模式

- 在 `SKILL.md` 内塞入过多细节（难维护）。
- 没有明确失败路径（只能“理想情况”跑通）。
- 没有验收标准（无法客观判断好坏）。
- 自动执行高风险动作且无确认。
- 只给“提示词”，不给“工程化配套文件”。