6.4 推理服务架构与生产部署要点

📅 发布时间:2026/7/3 23:24:56 👁️ 浏览次数:
6.4 推理服务架构与生产部署要点
6.4 推理服务架构与生产部署要点基于《大规模语言模型:从理论到实践(第2版)》第10章 大语言模型效率优化(工程化延伸)爆款小标题:原书第10章延伸:从单机推理到高可用服务与资源规划为什么这一节重要把模型「跑起来」和把模型「当成线上服务」是两回事:后者需要 API 网关、负载均衡、批处理与调度、监控与扩缩容,以及首 token 延迟(TTFT)与吞吐的权衡。原书第 10 章在效率优化部分涉及 vLLM 等服务化思路。本节把推理服务的典型架构、TTFT 与吞吐的关系、以及资源规划与压测要点讲清,便于你在目标 QPS 与延迟下做实例数与配置规划,并避开「按单请求延迟估实例数」「忽略冷启动」等常见坑。学习目标理解大模型推理服务的典型架构:API 网关、负载均衡、模型实例与批处理、监控与扩缩容(原书第10章工程化思路)。掌握「首 token 延迟(TTFT)」与「吞吐」的权衡,以及连续批处理、动态批处理对二者的影响。能根据 QPS、延迟要求与成本初步规划实例数、显存与量化方案。一、服务架构与 TTFT/吞吐(原书第 10 章)典型架构:无状态推理节点(每节点加载同一模型)+ 负载均衡;多副本应对高并发。单节点内通过KV Cache 与批处理共享显存(vLLM 的 PagedAttention 与连续批处理即为此服务)。TTFT(首 token 延迟)受预填充长度与调度影响;吞吐受批大小与连续批处理效率影响,二者往往需折中:大 batch 提吞吐但可能拉高排队与 T