Skill flagged — suspicious patterns detected

ClawHub Security flagged this skill as suspicious. Review the scan results before using.

原子化RAG知识库构建器

v1.0.0

原子化RAG知识库构建器 - 让AI真正学会一本书,而非只是看过。理工农医特化,方法论提炼,全网最好的开源专属知识库建立技能。

0· 105· 1 versions· 1 current· 1 all-time· Updated 8h ago· MIT-0

Install

openclaw skills install atomic-rag-knowledge-base

📚 原子化RAG知识库构建技能

Atomic Knowledge Base Builder for RAG

【学来学去学习社出品】| Produced by Xue Lai Xue Qu Learning Society

"让AI真正学会一本书,而非只是看过。"


技能概述

技能名称: atomic-rag-builder
版本: v1.0.0
分类: AI-Programming / Knowledge-Management
标签: rag, knowledge-base, pdf, vector-db, atomic, learning

技能简介

本技能用于从PDF文档中构建高质量的RAG(检索增强生成)知识库。区别于传统的"硬切法"(按字数机械分割),本技能采用"原子化"方法,将知识拆分为最小可用单元,使AI能够真正理解、融会贯通、举一反三。

解决的核心痛点

痛点1:AI"没头没尾"

  • 现象: 传统向量库按600-800字硬切,一个完整知识点被拦腰斩断
  • 结果: AI回答"断片",只能生成正确的废话
  • 解决: 按知识完整性拆分,保留上下文的逻辑关联

痛点2:U型注意力丢失

  • 现象: 100万上下文大模型只记住开头结尾10%
  • 结果: 中间80%的精华方法论被忽略
  • 解决: 原子化后只加载相关原子,精准匹配

痛点3:知识≠能力

  • 现象: AI看过很多书,但不会解决问题
  • 结果: 只能复述概念,无法指导实践
  • 解决: 提炼方法论,将知识封装为可执行的能力

痛点4:理工农医书籍特殊处理

  • 现象: 理工农医书籍有大量公式、图表、推导过程
  • 结果: 传统OCR只能提取文字,丢失最核心的公式和图表关系
  • 解决: 专用解析器处理公式、图表、代码、推导步骤

技能使用场景

  1. 建立个人知识库: 将阅读过的书籍转化为可检索的知识原子
  2. 企业知识管理: 将SOP、手册、培训资料原子化,供AI调用
  3. 教育内容建设: 将教材、题库原子化,实现个性化学习
  4. 研究资料整理: 将论文、专利原子化,提取核心方法和结论

核心方法论

原子化五步法

Step 1: 格式转化 (消除视觉盲区)
Step 2: 语义分段 (按知识完整性)
Step 3: 方法论提炼 (去故事留方法)
Step 4: 元数据提取 (多维度标签)
Step 5: 向量化存储 (准备检索)

原子单元标准格式

{
  "atom_id": "unique_identifier",
  "type": "knowledge_type",
  "title": "核心概念/问题/方法",
  "content": "核心内容",
  "metadata": {
    "source": "来源",
    "page": 10,
    "chapter": "第X章",
    "difficulty": 1-5,
    "prerequisites": ["前置知识"],
    "related_atoms": ["关联原子"]
  },
  "methodology": {
    "steps": ["步骤1", "步骤2"],
    "key_points": ["关键点"],
    "common_mistakes": ["常见错误"],
    "verification": "验证方法"
  },
  "embedding": [0.12, -0.45, ...]
}

🎓 理工农医特化处理

领域特殊处理
数学LaTeX公式提取、证明步骤识别、定理定义标注
物理物理模型提取、公式推导过程、适用条件标注
化学化学反应式识别、反应机理提取、条件参数记录
医学诊断逻辑提取、治疗方案记录、鉴别诊断标注

📊 性能指标

指标目标值说明
原子提取完整率>95%知识点不丢失
方法论提炼准确率>90%正确识别可执行方法
检索召回率>85%相关知识能找回
处理速度50页/分钟PDF处理效率

🚀 使用示例

from atomic_rag import AtomicRAGBuilder

# 构建知识库
builder = AtomicRAGBuilder(domain="math")
atoms = builder.process_pdf("高等数学.pdf")
builder.store_to_vector_db(atoms, collection_name="math_kb")

# RAG问答
from atomic_rag import MultiRecallRAG
rag = MultiRecallRAG()
answer = rag.ask("如何求解一元二次方程?")

📄 License

MIT License - 自由使用,欢迎贡献!


Made with ❤️ by 学来学去AI团队

Version tags

latestvk97d7bz3vg2kwy2tsca35naye584q3nr

Runtime requirements

📚 Clawdis