【AI大模型】上下文工程完全指南：从提示工程到智能体构建

📅 发布时间：2026/7/5 3:36:16 👁️ 浏览次数：

前言在应用AI领域“提示工程”Prompt Engineering多年来一直是关注焦点如今一个新术语逐渐凸显上下文工程Context Engineering。基于语言模型进行开发正从“为提示找到合适的词句”转向更宏观的问题——“何种上下文配置最有可能让模型产生预期行为”上下文指的是从大型语言模型LLM中进行采样时所包含的令牌token集合。当前的工程问题是在LLM固有的约束条件下优化这些令牌的效用以持续实现预期结果。要高效驾驭LLM往往需要从“上下文视角”思考——换句话说要考虑LLM在任意时刻可获取的整体状态以及该状态可能产生的潜在行为。在本文中将探讨新兴的上下文工程技术并提供一个经过优化的思维模型用于构建可引导、高效能的智能体。一、上下文工程vs提示工程我们将上下文工程视为提示工程的自然演进提示工程指的是为实现最优结果而编写和组织LLM指令的方法。上下文工程则指在LLM推理过程中筛选和维护最优令牌信息集的一系列策略其中包括除提示之外可能纳入上下文的所有其他信息。在基于LLM进行工程开发的早期阶段提示词编写是AI工程工作的核心环节——因为除日常对话交互外大多数用例都需要针对“单轮分类”或“文本生成”任务优化提示。顾名思义提示工程的核心关注点是“如何编写高效提示”尤其是系统提示。然而随着我们开始开发“能力更强、可支持多轮推理、且能应对更长时间跨度”的智能体我们需要一套策略来管理整个上下文状态包括系统指令、工具、模型上下文协议MCP、外部数据、消息历史等。在循环中运行的智能体会生成越来越多与“下一轮推理”相关的数据而这些信息必须经过周期性优化。上下文工程正是一门“从不断演变的海量潜在信息中筛选出可纳入有限上下文窗口的内容”的技术与科学。与“编写提示”这种离散任务不同上下文工程具有迭代性——每次决定向模型传递哪些内容时都需要进行筛选二、为何上下文工程对构建高性能智能体至关重要尽管LLM速度快、能处理的数据量越来越大但我们发现LLM与人类类似在特定情况下会出现注意力分散或理解混淆的问题。针对“大海捞针”式基准测试的研究揭示了“上下文衰减context rot”的概念随着上下文窗口中令牌数量的增加模型从该上下文中准确召回信息的能力会下降。尽管不同模型的性能衰减程度存在差异但所有模型都会出现这一特征。因此上下文必须被视为一种“边际收益递减”的有限资源。与人类有限的工作记忆容量类似LLM在解析大量上下文时也会消耗“注意力预算attention budget”。每引入一个新令牌都会在一定程度上消耗该预算——这使得“精心筛选LLM可获取的令牌”变得愈发重要。这种注意力稀缺性源于LLM的架构约束。LLM基于Transformer架构构建该架构允许每个令牌关注整个上下文中的所有其他令牌由此产生的成对关系数量为 n²n为令牌数量。随着上下文长度增加模型捕捉这些成对关系的能力会逐渐减弱从而在“上下文规模”与“注意力集中度”之间形成天然矛盾。此外模型的注意力模式是从训练数据分布中学习而来的而在训练数据中短序列通常比长序列更常见。这意味着模型对“全上下文依赖关系”的处理经验更少专门用于此类处理的参数也更少。“位置编码插值”position encoding interpolation等技术可通过将长序列适配到“原训练的较小上下文窗口”中让模型能够处理更长序列但会导致令牌位置理解能力有所下降。这些因素使得模型性能呈现“梯度衰减”而非“断崖式下降”在长上下文场景下模型仍具备较强能力但与处理短上下文相比其信息检索精度和长程推理能力可能会有所降低。这些现实情况表明要构建高性能智能体精心设计的上下文工程至关重要。三、高效上下文的构成要素鉴于LLM的注意力预算有限优秀的上下文工程意味着“找到最小规模的高价值令牌集以最大程度提高实现预期结果的可能性”。实践这一理念难度不小但在下文将结合上下文的不同组成部分说明这一核心原则在实际应用中的具体含义。1. 系统提示系统提示应极其清晰使用简洁、直接的语言并以“适合智能体的粒度”呈现信息。这里的“合适粒度”是介于两种常见失效模式之间的“黄金平衡点”1一种极端情况是工程师在提示中硬编码复杂、脆弱的逻辑以获取精确的智能体行为。这种方法会导致系统脆弱性增加且长期维护复杂度上升。2另一种极端情况是工程师提供的指导过于模糊、宏观无法为LLM提供关于“预期输出”的具体信号或错误地假设存在“共享上下文”。最优粒度需实现平衡既要足够具体以有效引导行为又要具备足够灵活性为模型提供可靠的启发式规则以指导行为。我们建议将提示组织为不同部分如background_information、、##工具指南、##输出说明等并使用XML标签或Markdown标题来区分这些部分——不过随着模型能力的提升提示的具体格式重要性可能会逐渐降低。无论采用何种方式构建系统提示核心目标都是“用最少的信息完整界定预期行为”注“最少”并不等同于“简短”为确保智能体遵循预期行为仍需提前向其提供足够信息。最佳实践是先使用最先进的模型测试“最小化提示”在目标任务上的表现然后根据初始测试中发现的失效模式添加清晰的指令和示例以提升性能。2. 工具工具使智能体能够与环境交互并在工作过程中引入新的、额外的上下文。由于工具定义了“智能体与其信息/行动空间”之间的通信因此工具设计必须注重效率——既要返回“令牌效率高”的信息又要能引导智能体产生高效行为。与设计精良的代码库中的函数类似工具应具备“功能独立、抗错误能力强、用途明确”的特点。输入参数也应具有描述性、无歧义性并能充分发挥模型的固有优势。通常观察到的最常见失效模式之一是“工具集臃肿”——工具涵盖的功能过多或导致智能体在“选择使用哪种工具”时面临模糊的决策点。如果人类工程师无法明确判断“在特定场景下应使用哪种工具”就不能期望AI智能体做得更好。正如我们将在下文讨论的为智能体筛选“最小可行工具集”还有助于在长时间交互中更可靠地维护和精简上下文。3. 示例提供示例即“少样本提示”是公认的最佳实践仍强烈推荐这一方法。然而许多团队会将大量边缘案例塞进提示中试图让LLM理解任务相关的所有规则——不建议这样做。相反建议筛选一组“多样化的标准示例”以有效体现智能体的预期行为。对LLM而言“示例”堪比“抵得上千言万语的图像”。综上针对上下文的不同组成部分系统提示、工具、示例、消息历史等我们的总体建议是深思熟虑确保上下文“信息丰富且精简”。接下来我们将深入探讨如何在运行时动态检索上下文。四、上下文检索与智能体式搜索通过与客户合作发现行业正逐渐向这一简洁范式靠拢。随着底层模型能力的提升智能体的自主性也会相应增强更智能的模型能让智能体自主应对复杂的问题场景并从错误中恢复。如今工程师对“智能体上下文设计”的思考方式也在发生转变。目前许多原生AI应用会采用“基于嵌入的推理前检索”方式筛选出重要上下文供智能体进行推理。随着行业向更具“智能体属性”的方案转型发现越来越多团队会通过“即时just in time上下文策略”来增强这些检索系统。“即时”方案并非提前预处理所有相关数据而是让智能体维护轻量级标识符如文件路径、存储的查询、网页链接等并利用这些引用通过工具在运行时将数据动态加载到上下文中。Anthropic的智能体编码解决方案Claude Code便采用这种方法对大型数据库进行复杂数据分析模型可以编写针对性查询、存储结果并利用head、tail等Bash命令分析大量数据而无需将完整数据对象加载到上下文中。这种方法与人类认知模式相似我们通常不会记忆整套信息而是借助文件系统、收件箱、书签等外部组织与索引系统按需检索相关信息。除存储效率外这些引用的元数据无论是否明确提供还能为“高效优化行为”提供机制。例如对于在文件系统中运行的智能体tests文件夹下名为test_utils.py的文件与src/core_logic.py中同名文件的用途显然不同。文件夹层级、命名规则、时间戳等信息都能提供重要信号帮助人类和智能体理解“如何、何时利用信息”。让智能体自主导航和检索数据还能实现“渐进式信息披露”——即允许智能体通过探索逐步发现相关上下文。每次交互产生的上下文都会为下一次决策提供依据文件大小暗示复杂度、命名规则提示用途、时间戳可作为相关性的参考指标。智能体可逐层构建理解仅在工作记忆中保留必要信息并通过记录策略实现额外的信息持久化。这种“自主管理的上下文窗口”能让智能体专注于相关信息子集而非淹没在“全面但可能无关”的信息中。当然这种方案也存在权衡运行时探索比检索预计算数据更慢。此外要确保LLM拥有“有效导航信息场景”所需的合适工具和启发式规则需要经过针对性的精心设计。若缺乏恰当指导智能体可能会因“误用工具、陷入无效路径、无法识别关键信息”而浪费上下文资源。在某些场景下最高效的智能体可能会采用混合策略提前检索部分数据以保证速度并自主决定是否进行进一步探索。“自主性的合理程度”取决于具体任务。Claude Code便是采用混合模式的智能体它会将CLAUDE.md文件直接提前加载到上下文中同时通过glob、grep等基础命令让智能体能够导航环境并“即时”检索文件从而有效规避“索引过时”和“语法树复杂”等问题。混合策略可能更适用于内容动态性较低的场景如法律或金融工作。随着模型能力的提升智能体设计将逐渐倾向于“让智能模型自主高效行动”减少人工筛选环节。鉴于该领域的快速发展“采用最简单可行的方案”可能仍是为Claude构建智能体的最佳建议。五、长周期任务的上下文工程长周期任务要求智能体在“令牌数量超过LLM上下文窗口”的行动序列中保持连贯性、上下文一致性和目标导向行为。对于“大型代码库迁移”“全面研究项目”等需要持续数十分钟至数小时的任务智能体需要专门的技术来突破上下文窗口大小的限制。“等待更大的上下文窗口”看似是显而易见的解决方案但在可预见的未来无论窗口规模如何“上下文冗余”和“信息相关性”问题都将存在——至少在需要智能体发挥最佳性能的场景中是如此。为使智能体能在长时间跨度内高效工作我们开发了几种可直接应对“上下文冗余”约束的技术压缩compaction、结构化记录structured note-taking和多智能体架构multi-agent architectures。1. 压缩压缩指的是当对话接近上下文窗口上限时对对话内容进行总结然后用该总结重新初始化一个新的上下文窗口。在上下文工程中压缩通常是提升长期连贯性的首要手段。其核心是“高保真提炼上下文窗口内容”使智能体能够继续工作且性能损失最小。以Claude Code为例实现方式是将消息历史传递给模型由模型总结并压缩关键细节。模型会保留架构决策、未解决的漏洞、实现细节同时丢弃冗余的工具输出或消息。随后智能体可基于“压缩后的上下文最近访问过的5个文件”继续工作。用户无需担心上下文窗口限制即可获得连贯的体验。压缩的关键在于“选择保留与丢弃的内容”过度压缩可能会导致“细微但关键的上下文”丢失而这些上下文的重要性可能在后续才会显现。对于实施压缩系统的工程师建议在复杂的智能体轨迹trace上仔细优化压缩提示。首先最大化“召回率”确保压缩提示能捕捉轨迹中的所有相关信息然后通过迭代剔除多余内容来提升“精确率”。“剔除多余内容”的一个简单切入点是“清除工具调用及结果”——如果某个工具调用已深入消息历史智能体为何还需要查看原始结果“工具结果清除”是最安全、影响最小的压缩方式之一。2. 结构化记录结构化记录又称“智能体记忆”是指智能体定期将记录保存到“上下文窗口之外的内存”中这些记录可在后续被重新加载到上下文窗口。这种策略能以最小开销实现“持久化记忆”。例如Claude Code创建待办事项列表、自定义智能体维护NOTES.md文件——这种简单模式能让智能体跟踪复杂任务的进度保留“若仅依赖工具调用则会丢失的关键上下文和依赖关系”。Claude玩《宝可梦》的案例表明在非编码领域记忆如何改变智能体的能力。该智能体在数千步游戏过程中能保持精确记录——例如跟踪目标“在1号道路训练宝可梦的1234步中皮卡丘已向10级的目标提升了8级”。无需任何关于“记忆结构”的提示它就能绘制已探索区域的地图、记住已解锁的关键成就并记录战斗策略以了解哪些招式对不同对手最有效。在上下文重置后智能体可读取自己的记录继续进行数小时的训练或地牢探索。这种“跨总结步骤的连贯性”使得“仅依靠LLM上下文窗口无法实现的长周期策略”成为可能。“记忆工具”通过基于文件的系统让智能体更容易在“上下文窗口之外”存储和查询信息从而使智能体能够逐步构建知识库、跨会话维护项目状态并参考历史工作内容——无需将所有信息都保存在上下文中。3. 多智能体架构多智能体架构是突破上下文限制的另一种方式。它不依赖单个智能体维护整个项目的状态而是由“专门的子智能体”处理特定任务每个子智能体都有独立的简洁上下文窗口。主智能体通过高层计划进行协调子智能体则负责开展深度技术工作或使用工具查找相关信息。每个子智能体可能会进行大量探索消耗数万个令牌但最终仅返回“压缩后的工作摘要”通常为 1000-2000 个令牌。这种方式实现了清晰的“职责分离”——详细的搜索上下文被隔离在子智能体内部主智能体则专注于综合和分析结果。选择何种方案取决于任务特征例如1压缩适用于“需要大量交互往返”的任务可保持对话连贯性2结构化记录适用于“具有明确里程碑的迭代开发”任务3多智能体架构适用于“并行探索能带来优势”的复杂研究与分析任务。即便模型持续升级“在长时间交互中保持连贯性”仍是构建更高效智能体的核心挑战。结论上下文工程标志着“基于LLM进行开发”的根本性转变。随着模型能力的提升挑战不再仅仅是“编写完美提示”而是“在每一步都精心筛选可纳入模型有限注意力预算的信息”。无论是为长周期任务实施压缩、设计“令牌高效”的工具还是让智能体“即时”探索环境核心原则始终不变找到最小规模的高价值令牌集以最大程度提高实现预期结果的可能性。本文介绍的技术将随着模型的升级而不断演进。更智能的模型对“指令细节”的要求更低能让智能体拥有更高的自主性。但即便能力不断提升“将上下文视为宝贵的有限资源”仍是构建可靠、高效智能体的核心前提。最后唠两句为什么AI大模型成为越来越多程序员转行就业、升职加薪的首选很简单这些岗位缺人且高薪智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200% 远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。那0基础普通人如何学习大模型深耕科技一线十二载亲历技术浪潮变迁。我见证那些率先拥抱AI的同行如何建立起效率与薪资的代际优势。如今我将积累的大模型面试真题、独家资料、技术报告与实战路线系统整理分享于此为你扫清学习困惑共赴AI时代新程。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

相关新闻

最新新闻

日新闻

周新闻

月新闻