监控清单(Prometheus + Grafana)
指标名vLLM含义告警阈值vllm:time_to_first_token_secondsTTFTp95 SLO×1.5 持续 3minvllm:time_per_output_token_secondsTPOTp95 50msvllm:num_requests_running在跑请求max-num-seqs× 0.9 时可扩量vllm:num_requests_waiting队列持续 0 即容量不足vllm:gpu_cache_usage_percKV 占用 95% 触发 preemptionvllm:request_prefill_time_secondsPrefill 耗时长 prompt 场景重点看DCGM_FI_DEV_GPU_UTILSM 利用率 60% 说明 batch 不够DCGM_FI_DEV_FB_USED显存占用留 5% 头DCGM_FI_DEV_GPU_TEMPGPU 温度 85°C 告警指标清单参考vLLM metrics 文档、NVIDIA DCGM Exporter。Grafana 面板模板vLLM dashboard (ID 21043)。9.6 KV Cache 分层超过万 DAU 必上LMCachevLLM/SGLang 原生集成GPU→CPU→NVMe 三级卸载prefix 命中后 TTFT 降 5–10×MooncakeMoonshot 开源分布式 KV 池跨节点共享白皮书 Mooncake: Trading More Storage for Less ComputationKV quantFP8 KV 几乎无损INT4 KV 在长上下文下降明显生产谨慎10. 架构与容量可视化10.1 百万 DAU 推理平台参考架构用户Anycast CDN / WAFLLM GatewayLiteLLM / Envoy限流/计费/租户隔离Router ASGLang RouterRouter B热层GB300 NVL72 × N温层8× H200 集群冷/批PRO 6000 96G 集群KV 分层池LMCache MooncakePrometheusGrafanaLokiAlertManagerPagerDuty10.2 DAU vs 单 DAU 月成本曲线规模经济单 DAU 月成本¥随规模变化1000500010000500001000005000001000000DAU20181614121086420¥ / DAU / 月10.3 不同硬件的 $/百万 token$ / 百万 token3 年 TCO 分摊Mac 512GPRO6000×1PRO6000×28×H2008×B2008×B300NVL72Atlas 910B×8876543210$ / M tok10.4 模型规模到硬件档位的映射硬件模型≤14B32B70B200B MoE600B 满血 MoE1TRTX 5090 32GRTX PRO 6000 96G2× PRO 6000 192G8× H200 141G8× B200/B300GB200/GB300 NVL7211. 踩坑清单一线教训只看显存不看带宽同 96GBHBM3e4.8TB/svs GDDR71.8TB/s解码差 2.5×忽视 prefillRAG/Agent prompt 常 10K算力不足卡首 token5090 不是 4090 Plus无 NVLink、575W、散热/供电要重做Mac 不能做并发全员部署请用 GPU昇腾适配坑模型发布 → MindIE 可跑通常 2–8 周延迟电源/机柜2× PRO 6000 EPYC 满载 ~1.8kW家用 10A/230V 临界三相才稳EULARTX 消费卡禁止数据中心部署GeForce Driver EULASaaS 出海留意不要神话单机跑 DeepSeek V3Q4 量化 PPL 上升、长 CoT 稳定性下降生产前必做业务回归NVLink Switch 拓扑陷阱PCIe TP2 性价比骤降NVSwitch 节点内 TP8 是黄金点跨节点优先用 PP 而非 TP别省 RDMA多机 vLLM 不上 400G IB / RoCEv2跨机 TP 基本废掉12. 2026 H1 推荐汇总一表贴墙角色 / 规模推荐配置核心负载预算/CapEx月 OpEx 估算个人开发者RTX 5090 128GB DDR5Qwen3-32B Q4、Llama-3.3-8B FP16¥25–30k~¥200电费70B 以内 CUDA 生态Mac Studio M4 Ultra 192GBQwen3-72B Q4、Llama-3.3-70B Q4~¥28k$3,999~¥100电费模型极客跑 671BMac Studio M3 Ultra 512GBDeepSeek-V3 Q4、Qwen3-235B Q4¥70–80k~¥150电费CUDA 原型工作站DGX Spark 128GB原型 / LoRA 微调~¥24k$3,299~¥150电费小团队 Copilot~20 并发1× PRO 6000 96G 整机Qwen3-72B FP8¥22–23 万~¥5–6k电运维小团队大模型私有~100 并发2× PRO 6000 96G 整机Qwen3-235B-A22B INT4¥35–37 万~¥8–10k电运维1k DAU~20 并发峰值1× PRO 6000 整机Qwen3-72B FP8~¥23 万~¥5.3k5k DAU~94 并发峰值2×(2×PRO 6000) 双活72B FP8¥90–110 万~¥24.5k10k DAU~188 并发峰值1 节点 8× H200Qwen3-235B / DeepSeek V3¥350–420 万~¥55k50k DAU~938 并发峰值4× 8× H200DeepSeek V3 FP8¥1,400–1,700 万~¥20 万100k DAU~1,875 并发峰值8× 8× H200 或 4× 8×B200生产集群¥2,800–3,300 万~¥56 万500k DAU~9,375 并发峰值32× 8×H200 B300 备份跨机房多活¥1.3–1.5 亿~¥216 万1M DAU~18,750 并发峰值GB200/GB300 NVL72 × 多柜超节点 HGX 分层¥2.5–3 亿~¥430 万信创Atlas 800I A28×910B/节点DeepSeek V3 W8A8、Qwen3¥120–150 万/节点~¥5–6 万/节点