Install
openclaw skills install @ldxs001/local-rag-builder本地 RAG 系统搭建技能,支持环境检测修复、嵌入模型多源下载、5种切分策略 + GuardStack + 后处理 + 插件注册、多知识库管理 + 自动分类规则、可调 Prompt、Web 可视化配置 + 极客模式 + 模板管理
openclaw skills install @ldxs001/local-rag-builder一站式本地 RAG 系统搭建工具。支持环境自动检测修复、嵌入模型多源下载、5 种切分策略 + GuardStack 守卫栈 + 后处理子切 + 插件注册、多知识库管理与自动分类规则、可调 Prompt、Web 可视化配置。
两种运行模式:
rag_standalone.py 直接调用外部 LLM(LM Studio / Ollama / vLLM)完成回答,不经过智能体。用户自行选择平台和模型。工作流说明(以下 xxxx 代指任意智能体):
集成模式:
- 你把文档/链接给 xxxx → xxxx 调用
rag_skill.py向量化入库- 你提问 → xxxx 调用
rag_skill.py --query "..."检索知识库- xxxx 根据检索到的 context 组织回答
独立模式:
- 你把文档/链接给 xxxx → xxxx 调用
rag_standalone.py --import-file <path>入库- 你提问 → xxxx 调用
rag_standalone.py --query "..."rag_standalone.py自行检索知识库 → 调用本地 LLM → 输出回答- xxxx 仅透传结果,不参与推理
正向触发:
否定条件:
📚 渐进式加载:本技能采用渐进式 MD 体系,
SKILL.md为入口(≤230行),详细内容拆分到references/*.md按需加载。
| # | 能力 | 说明 |
|---|---|---|
| 1 | 环境自动检测修复 | 检测 Python 版本(需 3.8-3.11)、缺失包,自动创建虚拟环境安装 |
| 2 | 嵌入模型管理 | 多源下载(ModelScope / HuggingFace 镜像 / 官方 / 直连),自动重试,完整性校验,路径修正 |
| 3 | 5 种切分策略 + GuardStack + 后处理 | 固定窗口、递归切、层级/标题切、按句切、语义切;守卫栈(mermaid/代码块/公式/表格/HTML 保护);后处理子切(递归/固定/语义,metadata 白名单继承) |
| 4 | 多知识库管理 | 支持多个向量知识库并行,LLM 自动分类入库或用户指定 |
| 5 | 可调 Prompt | 模板持久化,支持自定义占位符({context} {question}),运行时编辑 |
| 6 | Web 可视化界面 | 内嵌 HTML 配置面板:输入源开关、GuardStack 守卫配置、5 策略动态表单 + 后处理配置、极客模式 JSON 编辑器 + 配置模板管理、知识库自动分类规则编辑器 |
| 7 | 双模式接口 | 技能模式纯检索(rag_skill.py),智能体自行回答;独立模式(rag_standalone.py)检索 + LLM 全链路 |
| 文件名 | 分类 | 包含内容 | 审计关联 |
|---|---|---|---|
references/antipatterns.md | 规范指南 | skill 编写中的常见反模式。包含:错误做法示例、正确做法示例、避坑指引。 | R-18 |
references/architecture.md | 架构设计 | local-rag-builder 整体架构。包含:模块关系、数据流、核心设计决策。 | 无 |
references/changelog.md | 版本管理 | 版本更新日志。包含:版本号、更新类型、修复项、升级说明。 | R-24 |
references/examples.md | 使用示例 | 各场景完整执行示例。包含:CLI 命令、执行过程、输出结果。 | R-25 C-17 |
references/faq.md | 常见问题 | 常见疑问与解答。包含:问题分类、原因分析、解决方案。 | R-19, R-25 C-19 |
references/guide.md | 使用指南 | 三种执行模式操作教程。包含:audit/create/refactor 流程、参数说明、注意事项。 | 无 |
references/llm-setup.md | 参考文档 | > 本文件适用于 独立模式(rag_standalone.py)。技能模式(rag_skill.py)不需要 LLM。 | 无 |
references/permissions.md | 权限与测试 | 权限扫描说明与测试结论。包含:风险等级、高权限操作说明、测试概览、计时统计。 | R-15, R-16 |
references/LICENSE.md | 许可协议 | MIT 开源许可证声明。 | R-26 |
references/setup-spec.md | 规范文档 | RAG 搭建完整参数规范(32 参数 + 6 阶段流水线)。 | 无 |
references/commands.md | 命令参考 | 脚本命令速查表。包含:脚本名称、作用、核心参数。 | 无 |
references/data-directory.md | 数据目录 | 运行时数据目录结构说明。包含:各子目录用途。 | 无 |
references/custom-extensions.md | 扩展指南 | 插件注册指南与代码示例。包含:自定义切分策略、自定义守卫。 | 无 |
# 1. 进入技能目录
cd ~/.workbuddy/skills/local-rag-builder
# 2. 运行环境检测(自动修复,建议首次用国内镜像)
python scripts/rag_env_setup.py --auto-install --mirror aliyun # 国内用户推荐
# python scripts/rag_env_setup.py --auto-install # 海外用户/默认
# python scripts/rag_env_setup.py --check-only # 仅检测不安装
# python scripts/rag_env_setup.py --cleanup-locks # 清理 pip 锁文件
# 3. 下载嵌入模型(交互式选择)
python scripts/embedding_model_manager.py --interactive
# 4. 启动 Web 配置界面
python scripts/rag_web_ui.py
# 5a. [技能模式] 纯检索,供智能体调用(无需 LLM)
python scripts/rag_skill.py --query "问题"
python scripts/rag_skill.py --query "问题" --json # JSON 输出
# 5b. [独立模式] 检索 + LLM 全链路,需外部 LLM 服务
python scripts/rag_standalone.py # 交互式 CLI
python scripts/rag_standalone.py --query "问题" # 单次问答
python scripts/rag_standalone.py --query "问题" --json # JSON 输出
python scripts/rag_standalone.py --llm-help # 查看 LLM 接入指南
rag_env_setup.py 检测并安装依赖
embedding_model_manager.py 下载/校验嵌入模型
text_splitter.py 切分文档 → knowledge_base_manager.py 向量化
rag_skill.py(纯检索,供智能体调用,无需 LLM)rag_standalone.py(检索 + LLM 全链路,需外部 LLM)rag_web_ui.py 提供可视化面板→ 详见 references/commands.md(命令速查表)
→ 详见 references/data-directory.md(数据目录结构说明)
→ 详见 references/custom-extensions.md(插件注册指南)
bge-small-zh-v1___5)data/ 下对应子目录即可重置相关数据chunk_size 50–5000(默认 500),chunk_overlap 0–1000(默认 50);超出范围自动钳位 — 影响:极端参数影响检索精度 ✅ 已处理