【DeepSeek V4】首次有视觉能力，技术论文【Thinking with Visual Primitives】却被连夜删掉

张

张建站

2026/5/1 22:16:13

10分钟阅读

【DeepSeek V4】首次有视觉能力，技术论文【Thinking with Visual Primitives】却被连夜删掉

4月30日晚DeepSeek多模态负责人陈小康在X上兴奋地宣布发布新论文配文Now, we see you。不到24小时推文删了GitHub仓库也空了。这篇消失的论文到底藏着什么秘密目录前言Thinking with Visual Primitives1. 核心问题指代鸿沟2. 核心创新思维模式转变3. 模型架构与极致效率4. 训练流程专才到通才5. 实验结果6. 局限性前言DeepSeek做了件罕见的事情在终于开始灰测多模态能力后它放出了一篇解释背后技术的论文但这篇论文却在发布没多久就又被悄悄撤掉。4月29日DeepSeek研究员陈小康在X发布一条推文——现在我们可以看见你了。对 DeepSeek 来说视觉能力是让它的推理能力从文本世界延伸到真实世界的关键一步。但这次灰测的视觉能力很快被使用者们感觉到不同它和其他模型给语言模型底座增加多模态功能不同更像是一个单独的模型且不是以附庸形式定位而是有某种原生的思考和推理能力。就在大家好奇心增加的时候DeepSeek发布了一篇解释它追求的视觉能力的论文《Thinking with Visual Primitives》。Thinking with Visual Primitives1. 核心问题指代鸿沟文章指出尽管MLLM在“感知鸿沟”Perception Gap即能不能看清图片细节上通过高分辨率裁剪取得了进展但仍存在一个更根本的瓶颈指代鸿沟。现状目前的思维链主要在语言空间中进行。自然语言具有固有的歧义性在描述复杂空间布局如“左边第二个红色的球”时缺乏精准、无歧义的指针。后果在密集计数或拓扑推理如迷宫导航任务中模型的语言“思维”容易跟丢其试图指代的视觉实体导致逻辑崩塌和幻觉。2. 核心创新思维模式转变传统做法视觉定位通常被视为后置验证即先想完再用框标出。本文做法Thinking with Visual Primitives。将空间标记点、框视为“最小思维单元”让模型在推理过程中交替穿插文本和视觉原语。类比就像人类数密集物体时会用手指指着数或者在走迷宫时用笔描画路径一样模型通过“边指边想”将抽象的语言思维锚定在具体的物理坐标上。3. 模型架构与极致效率模型基于DeepSeek-V4-FlashMoE架构284B总参数/13B激活参数和自研的DeepSeek-ViT构建。极致压缩文章强调架构的高效性。通过3×3空间Token压缩和CSA压缩稀疏注意力机制KV缓存被极度压缩。数据对比对于一张800×800的图像GPT-5.4、Gemini-3-Flash等模型需要数千个KV缓存条目而该模型仅保留约90个条目整体压缩比达到7000倍以上。这证明了不需要海量的视觉Token也能实现强大的推理。4. 训练流程专才到通才文章采用了一种“先培养专才再合并通才”的训练策略预训练大规模爬取网络数据构建了超4000万的高质量样本。文章特别强调了优先扩展框数据因为框具有确定性点有歧义、任务泛化性框包含点和信息丰富性含尺寸。冷启动数据构建针对四大类任务构建了高质量的推理链数据计数分为粗粒度如“数男人”和细粒度如“数白狗”。空间推理与通用VQA利用GQA和CLEVR构建多跳推理数据。迷宫导航这是本文的一大亮点利用DFS等算法生成不同难度的迷宫教模型用“点”进行逐步探索和回溯。路径追踪生成纠缠的贝塞尔曲线让模型沿特定线条追踪终点测试其拓扑追踪能力。后训练专用SFT (Specialized SFT)分别训练“带框思考”和“带点思考”两个专才模型。专用RL (Specialized RL)使用GRPO算法和精心设计的奖励模型RM强化专才。*计数RM*使用平滑指数衰减奖励接近正确的答案而非简单的0/1奖惩。*迷宫RM*考虑了因果探索进度、探索完整性、撞墙惩罚等。*路径追踪RM*双向评估前向偏差惩罚后向覆盖惩罚防止模型“抄近道”。统一RFT将两个专才模型的能力整合到一个基础模型中。On-Policy Distillation通过策略蒸馏将专才模型的知识压缩到统一的学生模型中弥补性能差距。5. 实验结果性能在计数、空间推理和拓扑推理特别是迷宫和路径追踪任务上该模型284B-A13B表现出色与GPT-5.4、Claude-Sonnet-4.6等前沿模型持平甚至超越。拓扑推理的突破在DS_Maze_Navigation和DS_Path_Tracing任务上其他前沿模型表现较差GPT-5.4准确率约49.8%Claude约49.6%而本文模型达到了66.9%和56.7%显示了“带点思考”在拓扑问题上的独特优势。涌现能力模型展现了整合世界知识如识别金门大桥联想到NBA球队、反事实推理、提供具象操作建议如制作咖啡步骤等能力且支持中文思考尽管训练数据未包含中文视觉原语数据。6. 局限性输入分辨率限制在极细粒度场景下视觉原语输出可能不够精准。触发词依赖目前需要显式的触发词Trigger Placeholder来激活“视觉原语思考”模式未来希望模型能自主判断何时使用。泛化能力利用点解决复杂拓扑推理仍是一个挑战跨场景的泛化能力有限。

告别手动复制粘贴：用Python脚本一键导出ANSYS Workbench瞬态分析的所有节点数据

告别手动复制粘贴：用Python脚本一键导出ANSYS Workbench瞬态分析的所有节点数据在工程仿真领域，ANSYS Workbench的瞬态分析功能被广泛应用于振动测试、冲击模拟等动态场景。每次分析完成后，工程师们往往需要从数百个时间步长中提取关键节点的…...

2026/5/1 22:10:24 阅读更多 →

如何在Photoshop中直接使用AI绘画：Comfy-Photoshop-SD插件完全指南

如何在Photoshop中直接使用AI绘画：Comfy-Photoshop-SD插件完全指南【免费下载链接】Comfy-Photoshop-SD Download this extension via the ComfyUI manager to establish a connection between ComfyUI and the Auto-Photoshop-SD plugin in Photoshop. https://gi…...

2026/5/1 22:08:24 阅读更多 →

Gemma 2本地部署方案与优化技巧详解

1. 本地运行Gemma 2的三种主流方案解析Gemma 2作为轻量级开源大模型，在本地部署场景下展现出独特优势。经过两周的实测验证，我总结出三种稳定运行的方案，各适用于不同硬件条件和应用场景。以下是经过完整测试的详细路线图：1.1 方案…...

2026/5/1 22:05:13 阅读更多 →

PowerShell脚本编译终极指南：如何用Win-PS2EXE轻松打包脚本为EXE文件

PowerShell脚本编译终极指南：如何用Win-PS2EXE轻松打包脚本为EXE文件【免费下载链接】PS2EXE Module to compile powershell scripts to executables 项目地址: https://gitcode.com/gh_mirrors/ps/PS2EXE 还在为PowerShell脚本分发而烦恼吗？每次…...

2026/5/1 0:39:38 阅读更多 →