rag-knowledge-curator

v1.0.0

企业知识库治理引擎,提供智能分块、去重、标签分类、质量评分与版本管理,解决RAG“垃圾进垃圾出”痛点

0· 96·0 current·0 all-time

Install

OpenClaw Prompt Flow

Install with OpenClaw

Best for remote or guided setup. Copy the exact prompt, then paste it into OpenClaw for boboy-j/rag-knowledge-curator.

Previewing Install & Setup.
Prompt PreviewInstall & Setup
Install the skill "rag-knowledge-curator" (boboy-j/rag-knowledge-curator) from ClawHub.
Skill page: https://clawhub.ai/boboy-j/rag-knowledge-curator
Keep the work scoped to this skill only.
After install, inspect the skill metadata and help me finish setup.
Use only the metadata you can verify from ClawHub; do not invent missing requirements.
Ask before making any broader environment changes.

Command Line

CLI Commands

Use the direct CLI path if you want to install manually and keep every step visible.

OpenClaw CLI

Bare skill slug

openclaw skills install rag-knowledge-curator

ClawHub CLI

Package manager switcher

npx clawhub@latest install rag-knowledge-curator
Security Scan
Capability signals
Requires OAuth tokenRequires sensitive credentials
These labels describe what authority the skill may exercise. They are separate from suspicious or malicious moderation verdicts.
VirusTotalVirusTotal
Benign
View report →
OpenClawOpenClaw
Benign
high confidence
Purpose & Capability
技能名与描述(知识库治理、分块、去重、打标、质量评分、版本化)与 SKILL.md、schema.json、examples.json 中的要求和示例保持一致;没有请求与其目的不符的凭据或二进制依赖。
Instruction Scope
SKILL.md 的运行指令仅在提供的 raw_documents 上执行清洗、分块、抽元数据、评分与生成报告;没有指示读取系统文件或未声明的环境变量。但文档中提到“可直接对接向量数据库入库”,实现细节未给出——如果用户把该输出自动化写入外部存储,需要注意外部管道的安全性和权限控制。
Install Mechanism
无安装规范、无代码、仅为说明文档(instruction-only),不会在主机上下载或写入可执行内容,安装风险低。
Credentials
未声明任何环境变量、凭据或配置路径;所需权限与技能目的相称。
Persistence & Privilege
flags 表示 always:false,默认允许模型自主调用但无强制常驻或跨技能配置修改;没有请求持久化平台级权限。
Assessment
技能本身是自洽的、低风险的文本处理/治理说明。但注意: - 不要把敏感凭据或机密(API 密钥、私人数据、未脱敏的机密文档)直接放入 raw_documents——技能会处理并生成可储存的输出,若你将结果自动写入向量数据库,可能导致凭据被持久化。 - 如果你打算把输出“直接对接向量数据库”,请在外部管道(ETL/入库脚本)中使用安全的凭据管理、访问控制与人工复核步骤;确保技能不会被配置为直接将数据推送到不受信任的外部端点。 - 建议先在非敏感样本上测试治理策略与评分规则,确认分块/去重/标签逻辑满足业务需求再在生产数据上运行。

Like a lobster shell, security has layers — review code before you run it.

latestvk9702phdh897s91wqffdw7znj185295e
96downloads
0stars
1versions
Updated 1w ago
v1.0.0
MIT-0

🗃️ 企业知识库治理引擎

🎯 核心定位

将非结构化原始资料转化为高质量、可检索、可追溯的 RAG 就绪数据集,从源头解决“垃圾进垃圾出”问题。

🔄 工作流指令

  1. 文本清洗:去除乱码/页眉页脚/重复段落/广告噪声/不可见字符,保留有效语义内容。
  2. 智能分块:按 chunk_strategy 切割文本,保留上下文边界(建议重叠率 10%-20%),严禁切断完整逻辑或代码块。
  3. 元数据抽取:自动打标签(主题/实体/版本/适用对象/密级/来源),确保领域术语一致性。
  4. 质量评分:从完整性、准确性、时效性、可读性四维打分(1-5分),标注低分项原因。
  5. 输出版本化清单:生成治理报告与入库建议,直接对接向量数据库管道。

📤 输出模板

# 📚 知识库治理报告

## 1. 处理摘要
| 指标 | 值 | 备注 |
|:---|:---|:---|
| 原始段落/字符数 | ... | ... |
| 有效分块数 | ... | 经过去重/清洗 |
| 去重/降噪率 | ...% | ... |
| 平均质量分 | .../5 | ... |

## 2. 分块预览与元数据
| 分块ID | 核心摘要 | 标签 | 质量分 | 备注/处理建议 |
|:---|:---|:---|:---|:---|
| KB-001 | ... | [技术][v2.1][API] | 4.5 | 保留完整上下文 |
| KB-002 | ... | [SOP][运维] | 3.2 | 需补充截图/命令说明 |

## 3. 治理优化建议
- **结构优化**:...
- **内容补全**:...
- **更新策略**:...
> 💡 本输出可直接对接向量数据库入库。建议配置定时增量更新管道与人工复核节点。

Comments

Loading comments...