监控清单（Prometheus + Grafana）

张

张建站

2026/7/6 2:40:55

10分钟阅读

指标名vLLM含义告警阈值vllm:time_to_first_token_secondsTTFTp95 SLO×1.5 持续 3minvllm:time_per_output_token_secondsTPOTp95 50msvllm:num_requests_running在跑请求max-num-seqs× 0.9 时可扩量vllm:num_requests_waiting队列持续 0 即容量不足vllm:gpu_cache_usage_percKV 占用 95% 触发 preemptionvllm:request_prefill_time_secondsPrefill 耗时长 prompt 场景重点看DCGM_FI_DEV_GPU_UTILSM 利用率 60% 说明 batch 不够DCGM_FI_DEV_FB_USED显存占用留 5% 头DCGM_FI_DEV_GPU_TEMPGPU 温度 85°C 告警指标清单参考vLLM metrics 文档、NVIDIA DCGM Exporter。Grafana 面板模板vLLM dashboard (ID 21043)。9.6 KV Cache 分层超过万 DAU 必上LMCachevLLM/SGLang 原生集成GPU→CPU→NVMe 三级卸载prefix 命中后 TTFT 降 5–10×MooncakeMoonshot 开源分布式 KV 池跨节点共享白皮书 Mooncake: Trading More Storage for Less ComputationKV quantFP8 KV 几乎无损INT4 KV 在长上下文下降明显生产谨慎10. 架构与容量可视化10.1 百万 DAU 推理平台参考架构用户Anycast CDN / WAFLLM GatewayLiteLLM / Envoy限流/计费/租户隔离Router ASGLang RouterRouter B热层GB300 NVL72 × N温层8× H200 集群冷/批PRO 6000 96G 集群KV 分层池LMCache MooncakePrometheusGrafanaLokiAlertManagerPagerDuty10.2 DAU vs 单 DAU 月成本曲线规模经济单 DAU 月成本¥随规模变化1000500010000500001000005000001000000DAU20181614121086420¥ / DAU / 月10.3 不同硬件的 $/百万 token$ / 百万 token3 年 TCO 分摊Mac 512GPRO6000×1PRO6000×28×H2008×B2008×B300NVL72Atlas 910B×8876543210$ / M tok10.4 模型规模到硬件档位的映射硬件模型≤14B32B70B200B MoE600B 满血 MoE1TRTX 5090 32GRTX PRO 6000 96G2× PRO 6000 192G8× H200 141G8× B200/B300GB200/GB300 NVL7211. 踩坑清单一线教训只看显存不看带宽同 96GBHBM3e4.8TB/svs GDDR71.8TB/s解码差 2.5×忽视 prefillRAG/Agent prompt 常 10K算力不足卡首 token5090 不是 4090 Plus无 NVLink、575W、散热/供电要重做Mac 不能做并发全员部署请用 GPU昇腾适配坑模型发布 → MindIE 可跑通常 2–8 周延迟电源/机柜2× PRO 6000 EPYC 满载 ~1.8kW家用 10A/230V 临界三相才稳EULARTX 消费卡禁止数据中心部署GeForce Driver EULASaaS 出海留意不要神话单机跑 DeepSeek V3Q4 量化 PPL 上升、长 CoT 稳定性下降生产前必做业务回归NVLink Switch 拓扑陷阱PCIe TP2 性价比骤降NVSwitch 节点内 TP8 是黄金点跨节点优先用 PP 而非 TP别省 RDMA多机 vLLM 不上 400G IB / RoCEv2跨机 TP 基本废掉12. 2026 H1 推荐汇总一表贴墙角色 / 规模推荐配置核心负载预算/CapEx月 OpEx 估算个人开发者RTX 5090 128GB DDR5Qwen3-32B Q4、Llama-3.3-8B FP16¥25–30k~¥200电费70B 以内 CUDA 生态Mac Studio M4 Ultra 192GBQwen3-72B Q4、Llama-3.3-70B Q4~¥28k$3,999~¥100电费模型极客跑 671BMac Studio M3 Ultra 512GBDeepSeek-V3 Q4、Qwen3-235B Q4¥70–80k~¥150电费CUDA 原型工作站DGX Spark 128GB原型 / LoRA 微调~¥24k$3,299~¥150电费小团队 Copilot~20 并发1× PRO 6000 96G 整机Qwen3-72B FP8¥22–23 万~¥5–6k电运维小团队大模型私有~100 并发2× PRO 6000 96G 整机Qwen3-235B-A22B INT4¥35–37 万~¥8–10k电运维1k DAU~20 并发峰值1× PRO 6000 整机Qwen3-72B FP8~¥23 万~¥5.3k5k DAU~94 并发峰值2×(2×PRO 6000) 双活72B FP8¥90–110 万~¥24.5k10k DAU~188 并发峰值1 节点 8× H200Qwen3-235B / DeepSeek V3¥350–420 万~¥55k50k DAU~938 并发峰值4× 8× H200DeepSeek V3 FP8¥1,400–1,700 万~¥20 万100k DAU~1,875 并发峰值8× 8× H200 或 4× 8×B200生产集群¥2,800–3,300 万~¥56 万500k DAU~9,375 并发峰值32× 8×H200 B300 备份跨机房多活¥1.3–1.5 亿~¥216 万1M DAU~18,750 并发峰值GB200/GB300 NVL72 × 多柜超节点 HGX 分层¥2.5–3 亿~¥430 万信创Atlas 800I A28×910B/节点DeepSeek V3 W8A8、Qwen3¥120–150 万/节点~¥5–6 万/节点

逆向学习：我为什么放着文档不看，直接读字节码

从一次线上事故说起去年双11前夜，压测组突然报过来一个bug：某个列表页接口的响应时间从200ms飙升到1.6s。全链路排查——数据库慢查询？没有。缓存击穿？缓存命中率正常。代码逻辑？我和另一个同事把相关方法翻了三遍&a…...

2026/7/6 2:40:30 阅读更多 →

5本橙皮书打包送看你缺哪本

评论区扣「橙皮书」三个字，我把 5 本 WorkBuddy 相关的 PDF 一次打包发你私信。先说结论过去一年，我用 WorkBuddy 陆陆续续写了 5 本橙皮书。加起来将近 300 页。覆盖 5 个场景：汽车零部件研发、市场经理提效、AI Agent 自建、飞书 aily 办…...

2026/7/6 2:39:36 阅读更多 →

MDIO总线驱动开发实战：基于Linux内核4.19的PHY寄存器读写与调试

MDIO总线驱动开发实战：基于Linux内核4.19的PHY寄存器读写与调试在嵌入式Linux开发中，网络设备的稳定性和性能往往取决于底层驱动的质量。MDIO总线作为MAC与PHY芯片之间的管理通道，其驱动实现直接影响着网络接口的配置、状态监控和故障排查效率…...

2026/7/6 2:38:57 阅读更多 →

通达OA SQL注入漏洞深度剖析：从手工注入到自动化利用与防御

1. 项目概述与漏洞背景最近在梳理一些历史OA系统的安全风险时，通达OA v11.6版本中的一个老漏洞又进入了我的视线。这个漏洞位于/general/bi_design/appcenter/report_bi.func.php文件中，是一个典型的SQL注入点。虽然这个漏洞的利用方式看起来并不复杂&am…...

2026/7/5 0:00:44 阅读更多 →

第5篇：通信协议设计 — 极简文本指令的交互艺术

第5篇：通信协议设计 — 极简文本指令的交互艺术一、引言在客户端与服务器的通信中，协议是双方对话的"语言"。一个好的协议设计，应该像一门优秀的语言一样——表达力强、易于理解、不易出错。GrainServer 采用了一套极简的文本指令协议，虽然简单，但完整覆盖了…...

2026/7/5 0:02:13 阅读更多 →

【零基础部署】 OpenClaw 小龙虾 AI 环境报错、网关离线全套解决办法（含安装包）

Windows 端 OpenClaw 2.7.9 快速部署指南🦞｜五分钟搭建本地 AI 数字员工，免去繁琐环境搭建安装资源与适配机型📦 适配系统：Windows10/11 64 位、macOS 12 及以上软件版本：OpenClaw 2.7.9 安装包大小&am…...

2026/7/5 0:07:14 阅读更多 →

3分钟上手DeepBump：用AI魔法让单张图片变成立体纹理贴图

3分钟上手DeepBump：用AI魔法让单张图片变成立体纹理贴图【免费下载链接】DeepBump Normal & height maps generation from single pictures 项目地址: https://gitcode.com/gh_mirrors/de/DeepBump 你是否曾经为3D模型寻找合适的纹理贴图而烦恼&#xf…...

2026/7/5 0:07:24 阅读更多 →