检索增强生成(RAG)是当前AI应用最核心的技术之一。本文从基础架构到前沿技术全面解析RAG的演进路线,涵盖分块策略、嵌入模型对比、重排序技术和幻觉治理。
Key Takeaways1 / 4RAG已从管道进化为智能循环
Agentic RAG不再是简单的"检索-生成"管道,而是一个能自主推理、重新查询和验证事实的智能循环系统。
RAG技术演进全景
Rendering diagram...
| 代际 | 方法 | 核心创新 | 局限性 |
|---|---|---|---|
| Naive RAG | 检索一次,直接生成 | 简单管道 | 无检索质量控制 |
| Advanced RAG | 查询改写、重排序、混合搜索 | 更好的检索质量 | 仍是固定管道 |
| Corrective RAG | 评估器 + 网络搜索回退 | 自动纠正差检索 | 评估器增加延迟 |
| Self-RAG | 生成时加入反思token | 模型自主决定何时检索 | 需要专门训练 |
| Agentic RAG | 具有规划和工具使用的自主Agent | 多步推理、自纠错循环 | 更高延迟和token成本 |
| Graph RAG | 知识图谱 + 社区摘要 | 擅长全局理解型查询 | 索引成本高 |
核心架构:Agentic RAG
Rendering diagram...
Agentic RAG的关键能力:
- 自纠错:"检索到的文档不相关,我需要重新搜索"
- 查询改写:"用户的问题太模糊,我来改写以获得更好的搜索结果"
- 多步推理:将复杂问题分解为多个检索-推理步骤
- 工具使用:在需要时调用外部API、数据库或计算工具
分块策略实战指南
分块是RAG中最关键却最容易被忽视的环节。一个核心矛盾:语义匹配需要小块(100-256 token),而上下文理解需要大块(1024+ token)。
策略对比
| 策略 | 原理 | 最佳场景 | 推荐块大小 |
|---|---|---|---|
| 固定长度 | 按固定token数切分 | 通用起步方案 | 400-512 token |
| 递归分块 | 按段落→句子递归分割 | 大多数RAG系统 | 保持结构完整 |
| 语义分块 | 按嵌入相似度聚类 | 需要高质量检索 | 动态确定 |
| 命题分块 | LLM提取原子事实 | 事实密集型文档 | ~500词/组 |
| Late Chunking | 先编码全文再分块 | 需要文档级上下文 | 按自然边界 |
Late Chunking:Jina AI的创新
传统方法:先分块 → 再编码(每块独立,丢失上下文)
Late Chunking:先编码全文 → 再分块(每块保留全文上下文)
Rendering diagram...
Anthropic的上下文检索
Anthropic提出在嵌入前为每个块添加来自全文的解释性上下文:
| 方法 | 检索失败率 | 降幅 |
|---|---|---|
| 基线(普通嵌入) | 5.7% | — |
| 上下文嵌入 | 3.7% | -35% |
| 上下文嵌入 + 上下文BM25 | 2.9% | -49% |
| 上述 + 重排序 | 1.9% | -67% |
嵌入模型选型
商业模型
| 模型 | MTEB分数 | 维度 | 价格/百万token | 特色 |
|---|---|---|---|---|
| Cohere embed-v4 | 65.2 | 1024 | $0.10 | 多模态,100+语言 |
| OpenAI text-embedding-3-large | 64.6 | 3072 | $0.13 | 俄罗斯套娃表示学习 |
| Voyage AI voyage-3-large | 63.8 | 1536 | $0.12 | 代码和法律领域强 |
开源模型
| 模型 | MTEB分数 | 维度 | 特色 |
|---|---|---|---|
| NV-Embed-v2 (NVIDIA) | 72.31 | 4096 | MTEB总分第一 |
| BGE-M3 (BAAI) | 63.0 | 1024 | 首个同时支持稠密/稀疏/多向量的模型 |
| Jina Embeddings v3 | 高 | 可变 | 任务特定LoRA适配器 |
关键发现:开源模型NV-Embed-v2在MTEB总分上已超过所有商业模型,但BGE-M3凭借三模式检索的灵活性在实际RAG系统中可能更实用。
重排序技术
重排序是提升RAG质量性价比最高的手段——准确率提升20-35%。
Rendering diagram...
主流重排序器对比
| 重排序器 | ELO评分 | 上下文窗口 | 关键特性 |
|---|---|---|---|
| zerank-2 (ZeroEntropy) | #1 | — | 排行榜第一 |
| Cohere Rerank 4 Pro | #2 (ELO 1627) | 32K | 金融任务+400 ELO提升 |
| Cohere Rerank 4 Fast | #7 (ELO 1506) | 32K | 速度与质量平衡 |
| ColBERTv2 | — | — | 后交互,可解释性强 |
ColBERT的后交互机制
ColBERT在快速bi-encoder和精确cross-encoder之间找到了平衡点:
- 离线:将每个文档编码为token级别嵌入矩阵
- 在线:编码查询为另一个矩阵
- 计算每个查询token与所有文档token的最大相似度(MaxSim)
- ColBERTv2通过残差压缩将MS MARCO数据集从154GB压缩到16-25GB
幻觉治理
问题严峻性
斯坦福大学2025年法律研究发现:LexisNexis和Thomson Reuters的法律RAG工具产生的引用幻觉率为17%-33%。更隐蔽的模式是"带引用的幻觉"——AI自信地给出一个带脚注的回答,但引用的来源过时、误导或不支持其声明。
前沿解决方案
| 方法 | 原理 | 效果 |
|---|---|---|
| ReDeEP (ICLR 2025) | 检测知识FFN过度强调参数知识 | 机制性检测幻觉 |
| FACTUM | 四维机制性评分 | 精度从0.201提升至0.334(+66%) |
| 贝叶斯RAG | 贝叶斯推理框架 | 幻觉率降低27.8% |
| MEGA-RAG | 多证据引导的答案精炼 | 适用于公共卫生领域 |
核心洞察:即使检索到准确且相关的内容,RAG模型仍可能产生与检索信息矛盾的幻觉。问题不仅在于检索质量,更在于LLM如何在生成过程中整合检索到的上下文。
Graph RAG:全局理解的突破
Graph RAG特别擅长回答需要跨文档全局理解的问题,如"这个数据集中的主要主题是什么?"
工作流程
Rendering diagram...
LazyGraphRAG:成本革命
| 指标 | GraphRAG | LazyGraphRAG | 差异 |
|---|---|---|---|
| 索引成本 | 100% | 0.1%(等同向量RAG) | 1000倍降低 |
| 查询成本 | 100% | 4% | 25倍降低 |
| 等质量查询成本 | 100% | 0.14% | 700倍降低 |
| 对比胜率 | — | 96/96全胜 | 统计显著 |
Key Takeaways1 / 4起步用Advanced RAG
查询改写+混合搜索+重排序的组合能解决80%的场景,不必一上来就用复杂架构。