收藏备用｜小白也能看懂的RAG入门指南（检索增强生成详解+优化实战）

📅 发布时间：2026/7/6 2:24:21 👁️ 浏览次数：

对于刚接触大模型的程序员和小白来说RAG检索增强生成是绕不开的核心实用技术——无需复杂微调就能让LLM大语言模型摆脱“知识过时”“胡说八道幻觉”的痛点通过检索外部数据库输出更准确、更具时效性的回答。本文从基础概念、核心流程到优化技巧、常见问题全程干货无冗余建议收藏慢慢学手把手带你入门RAG一、什么是RAG一句话讲透核心RAGRetrieval Augmented Generation检索增强生成本质是给LLM“装一个外部知识库”——让大模型在回答问题前先从你指定的数据库中检索相关上下文再结合自身能力生成答案核心目的是提升回答的准确性、时效性和可信度。很多小白会疑惑LLM已经训练了海量数据为什么还需要RAG关键问题在于LLM的训练数据有时效性上限比如训练到2023年就无法回答2024、2025年的新内容且对专业领域的细分知识覆盖不足。而RAG无需重新训练模型只需将你的私有数据、最新文档导入外部数据库就能让LLM“掌握”新知识完美解决纯生成模型的两大痛点幻觉编造不存在的信息、知识过时。划重点小白必记RAG 外部知识库检索 LLM生成无需微调上手成本低是程序员落地大模型应用的首选方案之一。二、RAG核心流程两步实现“检索增强”附实战demo典型的RAG流程分为两大核心阶段构建向量存储离线准备和检索生成在线响应每一步都有明确的操作逻辑小白跟着走就能快速理解。1. 构建向量存储给LLM准备“知识库”这一步是RAG的基础核心是将你的文档PDF、TXT、Markdown等处理成LLM能“看懂”的格式并存入向量数据库具体分为4个步骤1加载文档Load首先需要将各种格式的非结构化数据加载进来比如你本地的技术文档、行业报告、私有数据等。这里推荐小白使用Langchain框架——它封装了各种现成的DocumentLoaders文档加载器无需自己写代码适配格式直接调用就能加载PDF、HTML、JSON等各类文档极大降低上手难度。2切分文本Split加载后的文档通常篇幅较长而LLM的对话token数量有限制且长文本检索效率低因此需要将文档切分成更小的文本块Chunk。切分的质量会直接影响后续检索和生成效果这一点小白一定要注意。3转化向量EmbeddingLLM无法直接“读懂”文本只能处理向量浮点数数组。因此需要使用Embedding模型比如Sentence-BERT、OpenAI Embedding将切分后的每个文本块转化为固定维度的向量表示——这个过程就相当于“给文本贴标签”方便后续快速匹配相似内容。4存储到向量数据库VectorStore将转化后的向量统一存入向量数据库比如Chroma、FAISS、Milvus这类数据库的核心优势是“相似性检索”能根据用户的查询快速找到最匹配的向量对应的文本块为后续生成答案提供依据。2. 检索生成让LLM“查资料再回答”这一步是RAG的在线响应环节核心是“先检索、再生成”具体逻辑的是用户输入问题后系统先到向量数据库中通过相似性搜索找到与问题最相关的文本块context再将“用户问题question 检索到的上下文context”一起喂给LLM让LLM基于检索到的真实信息分析推理后生成答案避免幻觉。实战补充小白可直接参考为了方便大家落地练习我用LangGraphLangchain旗下的图结构框架构建了一个基础的RAG流程新增了“文档评分”环节进一步提升答案准确性流程逻辑调用Retrieval Tool检索相关文档 → GradeDocument对检索到的文档进行评分判断是否与用户问题相关→ 若相关GenerateAnswer生成答案返回若不相关Rewrite重新生成查询语句query再次检索直到找到合适的文档。相关代码已上传Github小白可直接克隆学习、修改快速上手实战https://github.com/Liu-Shihao/ai-agent-demo/tree/main/src/rag_agent三、进阶优化4个技巧让你的RAG性能翻倍小白重点收藏入门RAG后很多程序员会发现自己搭建的RAG系统检索不准、生成质量差。其实只要优化好以下4个关键点就能显著提升性能小白直接套用即可。1. 文档Chunking文本切分优化最基础、最关键文本切分的核心是“适配token限制、保留语义完整性”如果切分不当会导致关键信息断裂检索不到有用内容。以下是4种常见的切分方法以及小白必记的优化原则常见切分方法1固定长度切分重叠分块边界最简单的方法按照固定的字符或Token数如512、1024个token切分同时设置重叠部分比如重叠50个token避免边界信息丢失。缺点是可能截断语义比如把一个完整的技术知识点切成两半。2按照句子边界切分借助NLP框架如SpaCy按照标点符号句号、感叹号等切分贴合自然语义。缺点是长段落可能被切分成多个零散块导致语义断裂。3自定义规则分割用正则表达式或DOM解析器如BeautifulSoup按照文档的逻辑结构标题、段落、章节切分适合PDF、Markdown等结构化文档。缺点是需要手动设计分割规则小白需简单了解正则基础。4基于语义的分块用Transformer模型分析文本的语义关系将语义连贯的内容划分为一个块最贴合RAG需求能最大程度保留关键信息。缺点是计算成本稍高但小白可借助现成的工具如Langchain的RecursiveCharacterTextSplitter快速实现。小白必记优化原则① chunk块大小需匹配Embedding模型和LLM的token限制比如LLM的上下文窗口是4096tokenchunk大小建议设置为512-1024token② 关键信息如技术术语、实体、关系尽量保留在同一个chunk中避免截断。2. 相似性算法优化提升检索准确性相似性算法是RAG检索环节的核心用于衡量“用户查询”与“向量数据库中文本块”的关联程度算法选择直接影响检索效果。以下是4种常用算法小白需掌握它们的适用场景和核心特点1欧氏距离L2最常用的距离度量计算两个向量之间的直线距离值越小相似度越高。适合数据连续的场景优点是计算速度快缺点是对向量长度敏感可能受异常值影响。2余弦相似度COSINE通过计算两个向量之间夹角的余弦值衡量相似度取值范围在[-1, 1]之间值越大夹角越小相似度越高。是文本Embedding检索的首选算法适合衡量文本语义相似性但也有明显缺点下文详细说明。3BM25Best Matching 25基于“词频TF”和“逆文档频率IDF”的算法不依赖向量直接衡量“用户查询关键词”与“文档”的相关性广泛应用于搜索引擎如Elasticsearch默认使用BM25排序。小白可重点关注其核心逻辑① 词频TF查询词在文档中出现的频率越高相关性越强但通过k1参数控制饱和效应避免高频无关词如“的、是”过度影响得分② 逆文档频率IDF惩罚常见词提升罕见词的权重比如“RAG”在技术文档中出现次数少IDF值高对相关性贡献更大③ 文档长度归一化缓解“长文档得分偏高”的偏差让短文档也能获得合理得分。4Jaccard相似度Jaccard Index通过比较两个集合如查询关键词集合、文档关键词集合的“交集与并集比例”衡量相似度取值范围在[0,1]之间值越大相似度越高。适合文本去重、用户兴趣匹配等场景在RAG中常用于合并重复的检索结果。RAG中的典型应用小白直接套用① 初步检索用余弦相似度快速筛选候选文档提升效率② 重排序用交叉编码器精细排序Top-K结果提升准确性③ 去重用Jaccard相似度合并重复片段减少冗余。补充余弦相似度的缺点及解决方案小白避坑虽然余弦相似度常用但小白需注意其两个核心缺点避免影响检索效果缺点1忽视向量长度信息余弦相似度只关注向量的方向语义忽略向量的长度模可能导致两种问题① 高频词干扰长文本的高频词会主导向量方向即使语义不相关相似度也可能偏高② 未归一化的向量会导致计算偏差长文本向量模更大影响相似度判断。缺点2语义相似≠答案相关余弦相似度基于表面关键词匹配可能出现“语义相似但逻辑相反”“词序颠倒但相似度相同”的情况比如文档1“猫和狗是常见的宠物。”正向描述文档2“猫和狗不适合作为宠物。”负向描述——余弦相似度高但语义相反句子A“医生治疗病人。”句子B“病人治疗医生。”——词序颠倒余弦相似度相同但逻辑完全不同。解决方案小白可直接落地① 向量归一化对所有Embedding向量进行L2归一化强制向量长度统一避免长度干扰② 结合其他算法将余弦相似度与BM25结合兼顾语义相似性和关键词相关性③ 引入重排序Re-rank用交叉编码器如MiniLM-L6-v2精细化排序修正表面匹配的偏差④ 混合检索结合关键词检索BM25和向量检索提升检索准确性。3. Rerank 重排序进一步提升检索质量小白搭建RAG时很容易遇到“初步检索结果冗余、相关性低”的问题——比如检索到的文档语义相似但没有包含用户需要的答案。这时候就需要重排序Reranking技术对初步检索的Top-K结果进行二次优化提升相关性。重排序的核心逻辑不改变初步检索的结果范围而是结合更多特征重新调整结果的顺序让最相关的文档排在前面。小白常用的3种方法1交叉编码器Cross-Encoder最常用的方法如MiniLM-L6-v2直接计算“用户查询”与“每个检索文档”的相关性分数比Embedding模型更精准但计算速度稍慢适合对检索质量要求较高的场景2学习排序Learning to Rank训练专门的排序模型综合多特征如关键词匹配度、文档新鲜度、点击率进行排序适合大规模RAG系统3规则调整最简单的方法手动设置规则如去除重复内容、优先展示新鲜度高的文档、优先展示短文档适合小白快速优化。4. Graph RAG解决复杂推理问题传统RAG的短板的是“无法处理多跳推理”——比如用户查询“A公司的竞争对手的CEO是谁”需要先找到“A公司的竞争对手”再找到该竞争对手的CEO传统RAG只能检索到单一文本块无法完成多步推理。而Graph RAG知识图谱增强RAG就能完美解决这个问题。Graph RAG的核心将文档中的“实体如人名、公司名、技术术语”和“实体关系如竞争关系、雇佣关系”提取出来构建知识图谱KG检索时不仅返回文本片段还返回相关的子图结构让LLM能基于实体关系完成多跳推理。传统RAG与Graph RAG的核心区别小白一目了然特性传统 RAGGraph RAG检索单元文本片段Chunks实体关系子图推理能力单跳语义匹配只能回答简单问题多跳推理如 A→B→C解决复杂问题适用场景简单问答如“RAG是什么”复杂关系查询如多跳推理、实体关联分析Graph RAG实现步骤小白可分步学习1实体识别NER用SpaCy NLP模型或LLM从文本中提取实体如人名、地名、公司名、技术术语等比如从“字节跳动推出了豆包大模型”中提取实体“字节跳动”“豆包大模型”2关系抽取用LLM提取实体之间的关系生成三元组〈主体 (Subject), 关系 (Predicate), 客体 (Object)〉比如上面的例子可提取三元组〈字节跳动, 推出, 豆包大模型〉3图谱存储将提取的实体节点Node和关系Relations存入图数据库如Neo4j方便后续基于关系进行多跳检索。小贴士三元组是知识图谱的基本单元小白只要记住“主体关系客体”的结构就能快速理解知识图谱的核心逻辑比如〈RAG, 解决, LLM幻觉问题〉。通过Graph RAGRAG系统能从“平面检索文本”升级为“立体推理实体关系”尤其适合技术问答、行业分析等需要复杂推理的场景。四、RAG评估怎么判断你的RAG系统好不好用小白搭建完RAG系统后很容易陷入“自认为好用但实际检索不准”的误区。其实RAG的评估很简单重点关注两大维度检索质量和生成质量每个维度有明确的评估指标小白直接套用即可。1. 检索质量核心能不能找到有用的文档检索质量是RAG的基础——如果检索不到相关文档再强的LLM也无法生成准确答案重点关注两个指标1上下文准确率Context Precision前K个检索结果中“相关文本块”的比例。比如检索Top5个文档其中3个与问题相关那么准确率就是3/560%准确率越高检索的精准度越好2上下文召回率Context Recall所有“相关文档”中被检索到的比例。比如总共有10个相关文档检索Top5只找到3个那么召回率就是3/1030%召回率越高遗漏的相关文档越少。2. 生成质量核心能不能生成准确的答案生成质量是RAG的最终目标——即使检索到相关文档若LLM生成的答案不相关、有幻觉也没有意义重点关注两个指标1答案相关度Response Relevancy生成的答案与“用户问题”的契合度。比如用户问“RAG怎么优化”若答案重点讲RAG的优化方法相关度就高若扯RAG的概念相关度就低2忠诚度Faithfulness生成的答案与“检索到的上下文”的事实一致性。核心是“答案是否严格基于检索内容”避免LLM忽略检索文档、依赖自身知识编造信息幻觉忠诚度越高答案越可信。小白小贴士初期无需追求复杂的评估工具可手动对比“检索结果”和“生成答案”判断是否符合以上4个指标后续再逐步引入自动化评估工具如RAGAS。五、RAG常见缺点及解决方案小白避坑指南无论是小白还是资深程序员搭建RAG时都会遇到各种问题以下是6个最常见的缺点以及对应的解决方案小白可直接落地收藏起来遇到问题直接查1. 检索质量依赖外部数据库问题如果知识库不完整、内容过时或者包含大量无关信息噪声检索到的内容就会不相关、错误导致生成的答案质量下降解决方案定期更新知识库比如实时爬取权威数据源、手动更新私有文档同时清理知识库中的噪声数据保证数据的完整性和时效性。2. 分块导致上下文碎片化问题固定大小的分块的可能截断关键信息比如一个完整的技术步骤被切成两个chunk导致LLM无法获取完整上下文生成的答案不完整解决方案采用动态分块按照语义边界如段落、章节、句子切分结合基于语义的分块方法尽量将完整的语义单元保留在同一个chunk中。3. 语义相关≠答案相关问题向量检索如余弦相似度可能返回语义相似但没有包含答案的文档。比如用户问“如何搭建RAG”检索到的却是“RAG的核心概念”语义相关但无实际答案解决方案引入重排序模型如交叉编码器对初步检索结果进行二次筛选结合混合检索向量检索关键词检索BM25提升答案的相关性。4. 生成模型忽视检索内容问题LLM可能忽略检索到的文档仍依赖自身的训练知识生成答案导致出现幻觉违背RAG的核心逻辑解决方案强化提示工程在给LLM的提示词中明确要求“严格基于以下上下文回答不得使用上下文以外的知识”强制LLM参考检索到的内容。5. 无法处理多跳推理问题传统RAG难以回答需要多步推理的问题比如“RAG优化中用到的交叉编码器属于什么类型的模型”需要先找到“RAG优化方法”再找到“交叉编码器的类型”传统RAG无法完成这种多步检索解决方案引入知识图谱搭建Graph RAG显式建模实体之间的关系让LLM能基于关系进行多跳推理也可采用迭代检索让系统自动生成中间查询语句逐步逼近答案。6. RAG流程响应时间长问题RAG包含“检索生成”两个阶段尤其是引入重排序、Graph RAG后计算成本增加导致响应时间较长影响用户体验解决方案缓存高频查询结果比如用户经常问的“RAG是什么”将检索和生成结果缓存起来下次查询直接返回对Embedding模型和LLM进行量化降低计算成本采用分层检索先快速筛选候选文档再精细检索提升响应速度。总结表格小白快速查阅缺点类别具体问题解决方案检索质量知识库不完整/碎片化、内容过时动态更新知识库、语义分块、重排序生成偏差忽视检索内容、出现幻觉强化提示工程、模型微调小白可先不做微调效率问题响应延迟高、计算成本高缓存高频结果、量化模型、分层检索知识覆盖领域盲区、数据偏见多源数据融合、去偏处理复杂推理多跳推理困难Graph RAG、迭代检索六、最后总结小白必看RAG作为无需微调就能增强LLM性能的核心技术上手成本低、实用性强是程序员落地大模型应用的首选也是小白入门大模型的绝佳切入点。本文从基础概念、核心流程到优化技巧、评估方法、避坑指南全程围绕小白和程序员的学习需求去掉冗余内容新增实战提示和实用技巧建议收藏备用——后续搭建RAG时遇到问题可直接对照查阅。最后提醒RAG的核心是“检索准确生成可信”小白初期无需追求复杂的优化先搭建基础流程向量存储检索生成再逐步优化分块、相似性算法、重排序等细节多动手实践可参考文中的Github代码就能快速掌握RAG技术。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

相关新闻

最新新闻

日新闻

周新闻

月新闻