Modular RAG
在完成 Naive RAG 的基础构建与 Advanced RAG 的链路优化后,我们正式进入Modular RAG (模块化 RAG) 章节。
不同于以往线性的、固定的 Pipeline,Modular RAG 引入智能调度、持久化存储与智能增量加载机制的概念。系统根据用户意图,通过 Qwen3-0.6B 微型路由器动态编排处理路径。在 DeepSeek 论文集的实测中,系统首次构建需数分钟,但二次启动仅需秒级,且具备极强的抗噪能力与逻辑推理能力。
一、架构概览
Modular RAG 不再是线性的流水线,而是一个具备“记忆”与“自检”能力的智能系统。它通过 Qwen3-0.6B 路由器动态编排路径,并实现了宏观图谱与微观向量的完美融合。
- 数据层:
- 内置示例数据集:平台在内置路径中预置了 “DeepSeek” 论文数据集。用户无需繁琐的数据准备,即可通过调用内置库实现 “一键上手”,快速验证 RAG 流程的闭环性。
- 私有数据接入:系统具备高度的灵活性,支持用户通过数据通道(SCP)自行上传 PDF、Markdown 等私有文档。通过简单的路径配置,即可实现从公共知识到行业私有知识的无缝切换。
- 深度清洗加固:针对学术 PDF 中常见的数学符号与乱码(如 \ud835),在 Embedding 前执行强制编码清洗(utf-8 ignore + decode),并在 对象重建层面修复了 node_parser 的崩溃风险。
- 推理层:
- 核心引擎:采用 vLLM 作为推理后端,利用其 PagedAttention 技术提升并发处理能力。
- 启动策略:执行显存割让策略,为后续的向量化和精排预留充足的计算余裕,确保单卡环境下多模型的稳定运行。
- 多模型协同架构:在双卡环境下通过显存分片同时调度 Qwen3-8B 负责核心推理、Qwen3-Embedding-8B 负责高并发向量化(Batch Size=30+),Qwen3-0.6B 负责毫秒级路由。
- 数据存储与检索层:
- 智能增量加载:系统默认关闭 FORCE_REBUILD。启动时优先检测 Milvus 本地库(.db)与图谱存储(graph_storage),若存在则直接加载索引,跳过耗时的 Embedding 过程。
- 异构双路索引:
- Milvus Lite:存储 740+ 页的全量切片向量,负责“细节查准”。
- PropertyGraph:存储基于论文核心摘要生成的逻辑三元组,负责“关系查全”。
- 逻辑编排层:
- 意图路由 (Router):精准识别 META_QUERY(统计)、GRAPH_QUERY(逻辑)、SUMMARY(总结)与 TECH_QUERY(细节)。
- 宏微观混合检索:
- 微观:通过 HyDE(假设文档)增强向量检索,定位具体参数。
- 宏观:通过摘要级图谱,定位论文间的演进与对比关系。
- 流程图:
-
文档
-