Install
openclaw skills install atomic-rag-knowledge-base原子化RAG知识库构建器 - 让AI真正学会一本书,而非只是看过。理工农医特化,方法论提炼,全网最好的开源专属知识库建立技能。
openclaw skills install atomic-rag-knowledge-baseAtomic Knowledge Base Builder for RAG
【学来学去学习社出品】| Produced by Xue Lai Xue Qu Learning Society
"让AI真正学会一本书,而非只是看过。"
技能名称: atomic-rag-builder
版本: v1.0.0
分类: AI-Programming / Knowledge-Management
标签: rag, knowledge-base, pdf, vector-db, atomic, learning
本技能用于从PDF文档中构建高质量的RAG(检索增强生成)知识库。区别于传统的"硬切法"(按字数机械分割),本技能采用"原子化"方法,将知识拆分为最小可用单元,使AI能够真正理解、融会贯通、举一反三。
Step 1: 格式转化 (消除视觉盲区)
Step 2: 语义分段 (按知识完整性)
Step 3: 方法论提炼 (去故事留方法)
Step 4: 元数据提取 (多维度标签)
Step 5: 向量化存储 (准备检索)
{
"atom_id": "unique_identifier",
"type": "knowledge_type",
"title": "核心概念/问题/方法",
"content": "核心内容",
"metadata": {
"source": "来源",
"page": 10,
"chapter": "第X章",
"difficulty": 1-5,
"prerequisites": ["前置知识"],
"related_atoms": ["关联原子"]
},
"methodology": {
"steps": ["步骤1", "步骤2"],
"key_points": ["关键点"],
"common_mistakes": ["常见错误"],
"verification": "验证方法"
},
"embedding": [0.12, -0.45, ...]
}
| 领域 | 特殊处理 |
|---|---|
| 数学 | LaTeX公式提取、证明步骤识别、定理定义标注 |
| 物理 | 物理模型提取、公式推导过程、适用条件标注 |
| 化学 | 化学反应式识别、反应机理提取、条件参数记录 |
| 医学 | 诊断逻辑提取、治疗方案记录、鉴别诊断标注 |
| 指标 | 目标值 | 说明 |
|---|---|---|
| 原子提取完整率 | >95% | 知识点不丢失 |
| 方法论提炼准确率 | >90% | 正确识别可执行方法 |
| 检索召回率 | >85% | 相关知识能找回 |
| 处理速度 | 50页/分钟 | PDF处理效率 |
from atomic_rag import AtomicRAGBuilder
# 构建知识库
builder = AtomicRAGBuilder(domain="math")
atoms = builder.process_pdf("高等数学.pdf")
builder.store_to_vector_db(atoms, collection_name="math_kb")
# RAG问答
from atomic_rag import MultiRecallRAG
rag = MultiRecallRAG()
answer = rag.ask("如何求解一元二次方程?")
MIT License - 自由使用,欢迎贡献!
Made with ❤️ by 学来学去AI团队