大模型的推理速度并没有一个放之四海而皆准的绝对数值因为“标准”会根据具体的应用场景如实时语音助手、离线数据分析、代码补全以及部署成本的考量而变化。不过在目前的 AI 工业界我们通常使用一套标准化的指标体系来定义和测试推理速度。1. 衡量推理速度的三大核心指标要判断速度是否达标业界通常会将“速度”拆解为以下三个关键维度TTFT (Time To First Token首字延迟)定义从系统接收到用户的请求到模型生成并返回第一个 Token字/词所花费的时间。意义直接决定了用户的“等待感”。如果 TTFT 过长用户会觉得系统卡顿或死机。TPOT (Time Per Output Token单字生成时间) / TPS (Tokens Per Second每秒生成字数)定义模型在吐出第一个字之后后续每个字生成的平均时间或每秒能吐出多少个字。意义决定了内容输出的流畅度。如果 TPS 低于人类的阅读速度用户就会觉得模型在“往外挤牙膏”。RPS (Requests Per Second系统吞吐量)/并发数 (Concurrency)定义在保证上述 TTFT 和 TPS 达标的前提下服务器每秒能同时处理多少个用户的并发请求。意义决定了系统的承载能力和商业化成本。2. 业界公认的“达标”基线如果是面向普通用户的交互式对话场景如 Chatbot通常的达标及格线如下表所示评估指标极致体验 (如实时语音)优秀 (流畅对话)合格底线 (可接受)不合格 (需优化)首字延迟 (TTFT)小于 200 毫秒200 - 500 毫秒小于 1.5 秒大于 3 秒生成速度 (TPS)大于 50 tokens/s20 - 30 tokens/s大于 15 tokens/s小于 10 tokens/s注人类的平均阅读速度大约是每秒 5 到 8 个汉字。因此只要模型的 TPS 稳定在 15 以上用户的视觉体感就是“文字如流水般丝滑输出”。如果是代码补全场景由于程序员通常是一扫而过TPS 则要求更高通常需要大于 50 tokens/s。3. 一般如何测试推理速度是否达标测试大模型推理速度Benchmarking是一个严谨的系统工程不能仅仅靠“肉眼看秒表”。标准的测试流程通常包含以下几个步骤第一步明确并控制变量大模型的速度受多种因素影响测试前必须固定以下条件输入长度 (Prompt Length)测试时输入是 100 个 Token 还是 10000 个 Token输入越长TTFT 越慢因为模型需要时间理解上下文。输出长度 (Generation Length)限制模型生成 512 或 1024 个 Token以便统一计算平均速度。硬件与量化明确显卡型号如 A100、RTX 4090以及模型是否进行了量化如 FP16、INT8、INT4。第二步使用专业的自动化压测工具业界通常不会手动写死循环测试而是使用专业的压力测试工具来模拟真实流量vLLM Benchmark Scripts如果你使用 vLLM 部署模型它自带了非常专业的基准测试脚本可以直接测出吞吐量和延迟。LLMPerf一个专门针对大模型 API 接口的开源性能测试工具可以生成详细的 TTFT 和 TPOT 统计图表。Locust / JMeter传统的服务器压测工具配合自定义的 Python 脚本可以模拟几百个用户同时调用 API 的场景。第三步设计阶梯式的并发场景仅仅测试“单人使用”的速度意义不大。科学的测试方法是单并发测试测试 1 个用户请求时的极限 TTFT 和 TPS测算模型的天花板能力。阶梯施压 (Load Testing)将并发用户数从 1 逐渐增加到 10、50、100。寻找拐点当并发数达到某个临界点时你会发现 TTFT 突然飙升到 5 秒以上或者 TPS 暴跌到 10 以下。这个临界点就是你当前系统能够承载的最大有效并发量。