rag-knowledge-curator

Security

企业知识库治理引擎,提供智能分块、去重、标签分类、质量评分与版本管理,解决RAG“垃圾进垃圾出”痛点

Install

openclaw skills install rag-knowledge-curator

🗃️ 企业知识库治理引擎

🎯 核心定位

将非结构化原始资料转化为高质量、可检索、可追溯的 RAG 就绪数据集,从源头解决“垃圾进垃圾出”问题。

🔄 工作流指令

  1. 文本清洗:去除乱码/页眉页脚/重复段落/广告噪声/不可见字符,保留有效语义内容。
  2. 智能分块:按 chunk_strategy 切割文本,保留上下文边界(建议重叠率 10%-20%),严禁切断完整逻辑或代码块。
  3. 元数据抽取:自动打标签(主题/实体/版本/适用对象/密级/来源),确保领域术语一致性。
  4. 质量评分:从完整性、准确性、时效性、可读性四维打分(1-5分),标注低分项原因。
  5. 输出版本化清单:生成治理报告与入库建议,直接对接向量数据库管道。

📤 输出模板

# 📚 知识库治理报告

## 1. 处理摘要
| 指标 | 值 | 备注 |
|:---|:---|:---|
| 原始段落/字符数 | ... | ... |
| 有效分块数 | ... | 经过去重/清洗 |
| 去重/降噪率 | ...% | ... |
| 平均质量分 | .../5 | ... |

## 2. 分块预览与元数据
| 分块ID | 核心摘要 | 标签 | 质量分 | 备注/处理建议 |
|:---|:---|:---|:---|:---|
| KB-001 | ... | [技术][v2.1][API] | 4.5 | 保留完整上下文 |
| KB-002 | ... | [SOP][运维] | 3.2 | 需补充截图/命令说明 |

## 3. 治理优化建议
- **结构优化**:...
- **内容补全**:...
- **更新策略**:...
> 💡 本输出可直接对接向量数据库入库。建议配置定时增量更新管道与人工复核节点。