前段时间有个录友来找我复盘他面了得物的Agent开发岗项目里做了一套企业级 AI 对话服务。他的系统在业务层做得相当不错 —— 交互流畅、功能完整、Prompt 清晰、结构化输出也稳得很。但面试官问了几句业务逻辑后直接杀向部署、推理、压测方向去了面试官“你的功能没问题那一到高峰期就卡顿、响应忽快忽慢问题出在哪”他“可能是网络波动…… 或者服务器配置太低”面试官“硬件资源是充足的再想想。”他沉默了几秒“是不是模型太大了跑得慢”面试官摇摇头“我给你换最强的GPU延迟照样不稳定。你的推理服务怎么做的压测指标关注哪些”他“我就直接调用模型 API压测看了下平均耗时……”面试官“那你知道 TTFT、TPOT、P99 延迟代表什么吗他“阿巴阿巴阿巴。。。”部署、推理、压测才是大模型应用能不能稳定上线的底气今天我们来讲一讲这些环节到底在关注什么。一、为什么应用开发者也需要懂部署初级应用开发者在做demo时往往得心应手可一旦业务量上来你会发现自己根本绕不开部署层的问题★为什么高峰期响应特别慢用户反馈体验差为什么同样的请求有时候 2 秒返回有时候要 20 秒老板问这个系统能支撑多少并发用户你说不出来压测报告上一堆指标不知道该看哪个、该优化什么是不是挺真实这些问题的答案都藏在部署和推理服务这一层。你可能不需要自己去写框架但你需要读得懂这一层在说什么才能和基础设施团队对话才能在面试里说清楚你的系统设计。二、模型部署在关注什么部署这个词在不同场景下含义不同。在大模型场景里模型部署主要解决的是如何让一个训练好的模型变成可以被稳定调用的服务有几个核心问题我们至少要在概念上有所了解1、用什么框架跑模型不能直接用 PyTorch 训练代码上线需要专门的推理框架。常见的有 vLLM、TGIText Generation Inference、TensorRT-LLM 等。这些框架会针对推理场景做大量优化比如批处理请求、显存管理、KV Cache 复用等。2、模型放在哪大模型的权重动辄几十 GB 甚至几百 GB放在单卡上跑不下的时候需要多卡并行张量并行、流水线并行。3、如何管理显存推理时的显存消耗有两部分一是模型权重本身静态加载一次二是 KV Cache动态每个请求都会产生随序列长度增长。推理的优化就是要在有限显存里服务尽可能多的并发请求。4、模型量化与格式转换如果原始模型用 FP32 存储量化成 INT8 之后模型体积能缩小几倍推理速度也会提升但可能带来轻微的精度损失。选择合适的量化策略是部署阶段的常见决策点。★量化将大型语言模型中的高精度参数转换为低精度格式从而降低内存占用、加快推理速度并提升部署效率的技术。三、推理服务在关注什么模型部署好了推理服务层才真正开始工作。推理服务是一个围绕模型的服务化封装它负责接收外部请求管理请求队列调度 GPU 资源把请求送进模型收集输出再返回给调用方。典型的推理服务内部结构四、vLLM 是为了解决什么问题这是面试里高频的一个问题值得单独说清楚。大模型推理时有一个叫做 KV Cache 的机制模型在处理每个 token 时会计算出 Key 和 Value 矩阵这些中间结果可以被后续 token 复用从而避免重复计算。KV Cache 会占用显存而且随着序列长度增长占用量线性增加。传统推理框架管理 KV Cache 的方式很粗暴为每个请求预先分配一块连续的显存按最大序列长度分配。这带来了两个严重问题第一内存碎片化。不同请求的实际生成长度差异很大预分配的显存大量浪费导致明明还有显存却因为找不到连续空闲块而无法服务新请求。第二并发上限低。显存利用率低GPU 资源严重浪费能同时服务的请求数很少。vLLM 提出了 PagedAttention 技术借鉴操作系统虚拟内存的分页思想梦回考研408把 KV Cache 切分成固定大小的页block不需要预分配连续空间按需动态分配和回收像管理内存页表一样管理 KV Cache。效果是显存利用率显著提升相同显存下吞吐量大幅提升。简单说vLLM 解决的核心问题是让 GPU 显存不再因为碎片化而被大量浪费从而用同等硬件服务更多请求。五、压测需要关注的指标项目上线前必须做压力测试压测报告里会出现一堆指标。下面这张图把最核心的几个指标放在一起帮你建立直觉★TTFTTime to First Token首 token 延迟从请求发出到第一个 token 返回的时间。这是用户主观感受最强烈的指标——超过 1 秒用户会开始觉得系统在卡。对话类产品对 TTFT 极度敏感目标通常控制在 200-500ms 以内。TPOTTime Per Output Token每 token 生成耗时生成阶段每个 token 的平均耗时。它决定了流式输出的打字速度太慢会让用户感觉文字一顿一顿的。一般目标是 30-80ms/token对应人眼感知流畅的输出速度。吞吐量Throughput单位时间内系统能处理的 token 数量或请求数量通常用 tokens/s 表示。并发数Concurrency系统同时在处理的请求数量。并发数受显存约束——每个请求都需要分配 KV Cache显存满了就没法接受新请求。压测时需要找到系统在不降低 SLA服务等级协议前提下能支撑的最大并发数。六、为什么大模型系统要特别关注首字延迟这是面试里另一个高频问题值得展开说。普通 Web 服务的延迟通常是端到端的用户等的是整个结果。大模型的情况不同它是自回归生成的输出内容本来就是逐步产生的。这意味着大模型系统有一个独特的机会即使整体生成需要 10 秒只要前几百毫秒就能输出第一个 token用户就不会感觉到等待——他们会看到内容在逐渐出现。这就是为什么在大模型产品里TTFT 的优先级往往高于 E2E 总延迟。优化 TTFT等于在用户等待感知上做了最大的投入。从工程角度降低 TTFT 的常见手段有减少 Prompt 长度、使用推测解码speculative decoding、做 Prompt caching对常见前缀的 KV Cache 做复用等。七、常见的一些误区误区 1“用云 API 就不用管部署了”如果仅仅调用 OpenAI、Claude 等第三方 API确实可以不管部署但你仍然需要理解推理层的指标——限流策略、并发控制、超时处理。误区 2“吞吐量越高越好”不一定。吞吐量和延迟通常是此消彼长的关系。如果你的产品是实时对话牺牲延迟来换吞吐量是错误取舍需要根据实际业务来决定优化方向。误区 3“压测结果等于线上表现”压测通常用均匀分布的请求而线上流量有峰谷差异、长短 Prompt 混合、突发脉冲等。压测数据是参考基线真正的生产稳定性需要配合限流、降级策略一起保障。八、结语部署和推理是大模型应用能不能上线和上线后好不好用的底层基础。作为应用开发者我们应该能读懂推理层的指标能和基础设施团队对话能在系统设计里做出合理的选型决策。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】