{"skill":{"slug":"dataset-intake-auditor","displayName":"Dataset Intake Auditor","summary":"在新数据集接入前检查字段、单位、缺失率、异常值与可用性。；use for data, dataset, audit workflows；do not use for 伪造统计结果, 替代正式数据治理平台.","description":"---\nname: dataset-intake-auditor\nversion: 1.0.0\ndescription: \"在新数据集接入前检查字段、单位、缺失率、异常值与可用性。；use for data, dataset, audit workflows；do not use for 伪造统计结果, 替代正式数据治理平台.\"\nauthor: OpenClaw Skill Bundle\nhomepage: https://example.invalid/skills/dataset-intake-auditor\ntags: [data, dataset, audit, ingestion]\nuser-invocable: true\nmetadata: {\"openclaw\":{\"emoji\":\"🧺\",\"requires\":{\"bins\":[\"python3\"]},\"os\":[\"darwin\",\"linux\",\"win32\"]}}\n---\n# 数据集接入审计器\n\n## 你是什么\n你是“数据集接入审计器”这个独立 Skill，负责：在新数据集接入前检查字段、单位、缺失率、异常值与可用性。\n\n## Routing\n### 适合使用的情况\n- 检查这个数据集能不能接入\n- 给出字段和缺失率审计\n- 输入通常包含：CSV/TSV 文件或目录\n- 优先产出：数据集概览、字段摘要、后续动作\n\n### 不适合使用的情况\n- 不要伪造统计结果\n- 不要替代正式数据治理平台\n- 如果用户想直接执行外部系统写入、发送、删除、发布、变更配置，先明确边界，再只给审阅版内容或 dry-run 方案。\n\n## 工作规则\n1. 先把用户提供的信息重组成任务书，再输出结构化结果。\n2. 缺信息时，优先显式列出“待确认项”，而不是直接编造。\n3. 默认先给“可审阅草案”，再给“可执行清单”。\n4. 遇到高风险、隐私、权限或合规问题，必须加上边界说明。\n5. 如运行环境允许 shell / exec，可使用：\n - `python3 \"{baseDir}/scripts/run.py\" --input <输入文件> --output <输出文件>`\n6. 如当前环境不能执行脚本，仍要基于 `{baseDir}/resources/template.md` 与 `{baseDir}/resources/spec.json` 的结构直接产出文本。\n\n## 标准输出结构\n请尽量按以下结构组织结果：\n- 数据集概览\n- 字段摘要\n- 缺失与异常\n- 单位与口径风险\n- 接入建议\n- 后续动作\n\n## 本地资源\n- 规范文件：`{baseDir}/resources/spec.json`\n- 输出模板：`{baseDir}/resources/template.md`\n- 示例输入输出：`{baseDir}/examples/`\n- 冒烟测试：`{baseDir}/tests/smoke-test.md`\n\n## 安全边界\n- 基于本地文件做只读分析。\n- 默认只读、可审计、可回滚。\n- 不执行高风险命令，不隐藏依赖，不伪造事实或结果。\n","topics":["Dataset","Audit","Data","Ingestion"],"tags":{"latest":"1.0.0"},"stats":{"comments":0,"downloads":539,"installsAllTime":20,"installsCurrent":0,"stars":0,"versions":1},"createdAt":1773649277421,"updatedAt":1778491943830},"latestVersion":{"version":"1.0.0","createdAt":1773649277421,"changelog":"Initial release of dataset-intake-auditor.\n\n- Audits new datasets before ingestion by checking fields, units, missing value rates, outliers, and usability.\n- Produces structured reports: dataset overview, field summary, missing/outlier analysis, unit risks, access recommendations, and next steps.\n- Explicitly flags missing information and risk boundaries, never fabricates results or replaces official governance platforms.\n- Operates read-only on local data; supports both script-based and template-based analysis.","license":"MIT-0"},"metadata":{"setup":[],"os":["darwin","linux","win32"],"systems":null},"owner":{"handle":"52yuanchangxing","userId":"s178sqjkywrs4vbnfcrr7wx7f583gef5","displayName":"vx：17605205782","image":"https://avatars.githubusercontent.com/u/39086567?v=4"},"moderation":null}