DeepSeek V4 技术报告1. 引言IntroductionDeepSeek V4 是 DeepSeek 系列大语言模型LLM在超长上下文Long Context、稀疏专家模型MoE以及大规模推理基础设施方向的重要升级版本。相比传统仅依赖参数规模扩张的路线V4 更强调超长上下文处理能力推理效率优化稀疏计算Agent 场景适配基础设施协同设计其核心目标并非单纯提升 benchmark 分数而是推动 LLM 从“聊天模型”向“长期记忆智能体Long-Memory Agent”演化。2. 模型架构Model Architecture2.1 Sparse Mixture-of-ExpertsMoEDeepSeek V4 采用超大规模稀疏专家架构。DeepSeek-V4-Pro指标数值总参数量1.6T激活参数49B/tokenDeepSeek-V4-Flash指标数值总参数量285B激活参数13B/token模型采用动态专家路由机制y∑i1kG(x)iEi(x) y \sum_{i1}^{k} G(x)_i E_i(x)yi1∑k​G(x)i​Ei​(x)其中( G(x) )路由器Router( E_i(x) )第 (i) 个专家网络(k)被激活专家数量该设计实现大容量参数存储较低 token 计算成本更优训练扩展性更高推理吞吐3. 超长上下文Million-Token Context3.1 Context WindowDeepSeek V4 的核心突破之一是1M token context window 1M \text{ token context window}1Mtoken context window即支持百万级上下文长度。3.2 长上下文挑战标准 Transformer AttentionAttention(Q,K,V)softmax(QKTd)V \text{Attention}(Q,K,V)\text{softmax}\left(\frac{QK^T}{\sqrt{d}}\right)VAttention(Q,K,V)softmax(d​QKT​)V其复杂度O(n2) O(n^2)O(n2)因此在百万 token 下KV Cache 爆炸显存占用极高推理延迟巨大通信成本增加4. 推理系统Inference System4.1 Test-Time ScalingDeepSeek V4 提供Think ModeThink Max其核心思想为动态推理深度Dynamic Reasoning Depth即简单问题 → 快速输出复杂问题 → 延长 reasoning chain5. 国产硬件适配Ascend Adaptation5.1 Huawei Ascend 支持DeepSeek V4 明确强化了对Huawei Ascend国产 AI 集群的兼容。6. Agent 基础设施意义Agent InfrastructureDeepSeek V4 的真正战略意义在于LLM → Long-Memory Agent Infrastructure7. 总结ConclusionDeepSeek V4 的核心价值不是单纯提升模型能力而是通过 MoE 超长上下文 压缩注意力推动 LLM 向真正可部署的 Agent 基础设施演化。8. 参考资料ReferencesDeepSeek Official Model Cardhttps://fe-static.deepseek.com/chat/transparency/deepseek-V4-model-card-EN.pdfDeepSeek HuggingFace Technical Reporthttps://huggingface.co/deepseek-ai/DeepSeek-V4-Pro