使用 NVIDIA Blackwell 和 GPU 加速端点构建 DeepSeek V4

张

张建站

2026/5/9 2:46:31

10分钟阅读

使用 NVIDIA Blackwell 和 GPU 加速端点构建 DeepSeek V4

DeepSeek 刚刚发布了第四代旗舰模型推出 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两款产品均致力于实现高效的百万词元上下文推理。DeepSeek-V4-Pro 是该系列中最大的型号拥有 1.6 T 的总参数和 49B 的活动参数。DeepSeek-V4-Flash 是一款包含 304B 参数的小型模型具有 130 亿个活动参数专为高速、高效的工作负载而设计。这两种模型最高支持 1M-词元上下文窗口为长上下文编码、文档分析、检索和代理式 AI 工作流开辟了新的可能性。规格DeepSeek-V4-ProDeepSeek-V4-Flash模态文本文本总参数1.6 T304B活动参数49B130 亿上下文长度100 万词元100 万词元最大输出长度通过 DeepSeek API 文档提供高达 384K 的词元分辨率通过 DeepSeek API 文档提供高达 384K 的词元分辨率主要用例高级推理、编码、长上下文智能体高效聊天、路由、摘要许可证麻省理工学院麻省理工学院表 1. DeepSeek V4 系列的规格。用于长上下文推理的架构创新V4 系列基于 DeepSeek MoE 架构构建重点优化了 Transformer 架构中的注意力组件。相比 DeepSeek-V3.2这些创新可将每个词元推理所需的 FLOPs 减少 73%并将 KV 缓存的内存负载降低 90%。这一点很重要因为长上下文正在成为代理式应用的核心要求。智能体可以存储多个提示和响应。它们在整个工作流程中携带系统指令、工具输出、检索到的上下文、代码、日志、内存和多步骤推理痕迹。随着上下文窗口的增长注意力和 KV 缓存成为主要瓶颈。图 1. DeepSeek-V4 混合注意力架构概述。通过结合 CSA、DSA 和 HCA该模型显著减少了标准 Transformer 块内的 KV 缓存内存占用和计算开销。应对这一挑战的核心架构解决方案是混合注意力它融合了压缩稀疏注意力CSA通过动态序列压缩来减少 KV 条目的数量从而降低 KV 缓存的内存占用再结合 DeepSeek 稀疏注意力DSA对注意力矩阵进行稀疏化以降低计算开销。严重压缩注意力HCA通过将多个词元集合中的键值KV条目合并为单个压缩条目实现更激进的压缩从而显著减小 KV 缓存的大小。DeepSeek-V4 的架构创新标志着从基本聊天系统向多回合、长上下文推理和代理式系统的转变。这种新范式强调了整个堆栈 (软件、内存、计算和网络) 从根本上改变了推理经济学的动态。随着开放模型达到智能的前沿企业的工作重点从模型选择转向基础设施策略。在这种情况下最终的竞争优势是能够以最低的词元成本部署和扩展这些高性能模型。开箱即用的 NVIDIA Blackwell 性能见解无论是开发者部署用于高级推理的 1.6 T Pro 模型还是用于实现高速效率的 284B Flash 模型Blackwell 都能提供 100 万长上下文推理和万亿参数智能新时代所需的规模和低延迟性能。NVIDIA Blackwell 平台专为此类工作负载而构建。在基于 NVIDIA GB200 NVL72 的 DeepSeek-V4-Pro 上进行的开箱即用测试表明词元/ 秒/ 用户数超过 150。除了这些初步测试之外NVIDIA 团队还利用 vLLM 的 Day 0 NVIDIA Blackwell B300 recipe 生成了开箱即用的性能快照 (图 2) 。图 2. DeepSeek-V4-Pro 在 NVIDIA Blackwell B300 上的开箱即用性能。结果基于使用该模型的原生 MXFP4 格式的 1K/ 1K ISL/ OSL 配置。随着我们优化整个极致协同设计堆栈 (包括 Dynamo、NVFP4、经过优化的 CUDA 内核、高级并行技术等) 这一性能有望进一步提升。使用 NVIDIA GPU 加速端点进行构建作为 NVIDIA 开发者计划的一部分开发者可通过 nvidia.com 上由 NVIDIA GPU 加速的端点开始使用 DeepSeek V4 进行开发。在转向自托管部署之前托管端点为使用最新模型进行原型设计提供了快速便捷的方式。借助 NVIDIA NIMDeepSeek V4 也可在首发日下载因此可以部署它使用熟悉的 API 模式构建长上下文编码、文档分析和智能体工作流。使用 SGLang 进行部署SGLang 为基于 NVIDIA Blackwell 和 Hopper 架构的 DeepSeek™ V4 提供三种主要服务方案分别针对不同的延迟与吞吐量需求低延迟、均衡性能和最大吞吐量进行优化同时还提供专为长上下文工作负载以及预填充与解码分解设计的定制化方案。使用 vLLM 进行部署vLLM 为 NVIDIA Blackwell 和 Hopper 提供 DeepSeek® V4 的单节点与多节点服务方案支持扩展至 100 多个 GPU 的多节点预填充与解码分离架构并具备工具调用、推理及预测解码能力。助力智能体工作流DeepSeek V4 特别适合智能体因为它在长上下文编排、推理和工具调用方面表现出色。首先开发者可以将 DeepSeek V4 配置为 LLMNVIDIA NemoClaw在安全的 OpenShell 环境中运行 OpenClaw利用 DeepSeek V4 构建可长期运行的个人助手适用于代码生成、个人事务处理、自主支持等任务。运行nemoclaw onboard在第 3 步中输入您的 DeepSeek V4 提供商 URL 及其 DeepSeek V4 模型名称。NVIDIA AI-Q blueprint: 为您提供或您的代理一个强大的深度研究助手。该蓝图基于 LangChain 深度代理具备良好的可扩展性可轻松将 DeepSeek V4 集成到您的工作流程中实现高效的编排与规划.NVIDIA Data Explorer 智能体: 在 DABstep 基准测试中排名第一擅长数据分析、数据科学和表格研究。该智能体基于 NeMo Agent Toolkit 构建可轻松切换至 DeepSeek V4。使用开放智能体工具和开放模型的最佳方式是您始终能够尝试新的模型来获取前沿技术。开始使用 DeepSeek从 NVIDIA Blackwell 上的数据中心部署到托管 NIM 微服务和微调工作流NVIDIA 提供了一系列选项用于在不同的开发和部署阶段集成 DeepSeek 和其他开放模型。NVIDIA 是开源生态系统的积极贡献者已根据开源许可证发布了数百个项目。NVIDIA 致力于优化社区软件和开放模型让用户广泛分享在 AI 安全性和弹性方面的工作。如需开始使用请前往 Hugging Face 查看 DeepSeek-V4或在 build.nvidia.com 上体验专业版。

嵌入式系统软件成本估算与COCOMO II模型实践

1. 嵌入式系统软件成本估算的核心挑战在嵌入式系统开发领域，软件生命周期成本（Total Cost of Ownership, TCO）往往被严重低估。我曾参与过一个工业控制系统的开发项目，团队最初只关注硬件BOM成本，直到系统部署后才发现…...

2026/5/9 2:32:32 阅读更多 →

视频人脸打码软件工具

引言随着视频录制、直播互动、公共终端应用的普及，人脸信息作为核心个人隐私，其保护需求日益迫切。无论是课堂录制中需要隐藏学生身份、直播场景下保护观众隐私，还是自助终端界面避免路人面部泄露，传统手动打码效率低下、易遗漏的…...

2026/5/9 2:31:02 阅读更多 →

AI编程助手高效配置指南：Cursor与Claude Code专属工具箱实战

1. 项目概述：为你的AI编程伙伴打造专属工具箱如果你和我一样，日常开发已经离不开Cursor或者Claude Code这类AI驱动的IDE，那你肯定也遇到过类似的困扰：每次开启一个新项目，或者切换到一个新的技术栈时，都需要…...

2026/5/9 2:29:49 阅读更多 →

Zotero重复文献终极处理方案：ZoteroDuplicatesMerger完整使用指南

Zotero重复文献终极处理方案：ZoteroDuplicatesMerger完整使用指南【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 如果你正在为Zot…...

2026/5/7 22:07:22 阅读更多 →