o1-like推理模型：通过延长思维链实现深度推理

张

张建站

2026/4/22 19:15:25

10分钟阅读

9.1 范式转换从预训练扩展到测试时计算传统大语言模型LLM的性能提升主要遵循预训练扩展定律Scaling Laws即通过增加模型参数和训练数据量来提升能力。然而OpenAI o1系列2024和DeepSeek-R12025标志着测试时计算扩展Test-Time Scaling新范式的确立。这类模型的核心突破在于通过强化学习RL直接激励模型在推理阶段生成更长的思维链Chain-of-Thought, CoT将计算资源从训练阶段转移到推理阶段。OpenAI o1通过增加推理时的CoT长度在数学、编程和科学推理任务上实现了质的飞越。DeepSeek-R1进一步证明无需依赖监督微调SFT仅通过大规模强化学习即可激发模型的深度推理能力。测试时计算扩展定律表明在固定预训练计算预算下通过增加推理时的采样预算如重复采样、蒙特卡洛树搜索可以显著提升模型性能。近期研究提出的Train-to-TestT2T扩展定律统一了预训练与测试时优化证明过度训练Overtraining配合测试时计算扩展可达成计算最优配置。9.2 DeepSeek-R1的技术路径9.2.1 GRPO无需价值模型的强化学习DeepSeek-R1系列的核心算法是组相对策略优化Group Relative Policy Optimization, GRPO。与传统PPO不同GRPO摒弃了显式的价值模型Critic Model通过比较组内多个响应的相对质量来估计优势函数其中G 为每组生成的响应数量。GRPO的目标函数结合了策略梯度与KL散度约束 JGRPO(θ)N1这种设计显著降低了训练成本因为无需训练额外的价值网络。9.2.2 四阶段训练流程DeepSeek-R1的完整训练流程包含四个关键阶段冷启动Cold Start收集数千条高质量长CoT数据对基础模型进行微调避免RL早期的不稳定阶段。数据格式设计包含特殊token分隔推理过程与最终答案提升可读性面向推理的RL在数学、编程等可验证任务上应用GRPO使用基于规则的奖励准确率奖励格式奖励。特别引入语言一致性奖励以缓解多语言混杂问题拒绝采样与SFT利用中间检查点生成60万条推理数据结合通用领域数据如写作、问答进行监督微调扩展非推理能力全场景RL结合规则奖励与奖励模型信号对齐人类偏好确保模型在有用性Helpfulness和无害性Harmlessness方面达标9.3 Aha Moment涌现的自我反思能力DeepSeek-R1训练过程中最引人注目的发现是Aha Moment顿悟时刻现象。在RL训练的中期阶段模型自发涌现出高级元认知行为自我验证、反思和回溯修正。典型的Aha Moment表现为模型在生成过程中突然中断当前思路使用类似等等让我重新思考的表述然后启动系统性的自我修正。这种涌现行为并非显式编程结果而是模型在探索解空间时自主发展的策略。训练动态数据显示随着RL进程推进模型的平均响应长度持续增加与基准测试准确率呈现稳定的正相关。这证明模型学会了动态分配思考时间针对复杂问题生成更深入的推理路径。该现象已在多模态领域成功复现。MM-Eureka项目在视觉推理任务中观察到视觉Aha Moment模型会先规划解决方案完成后反思并重新感知图像Upon closer inspection...最终通过验证步骤得出正确答案。VisualThinker-R1-Zero甚至在2B参数的非SFT模型上复现了这一行为在CV-Bench上实现59.47%的准确率超越基础模型约30%。9.4 推理架构的扩展从文本到多模态o1-like推理模型的技术范式正快速向多模态领域扩展视觉推理MM-Eureka和Octopus等框架将GRPO应用于视觉语言模型VLM。关键创新包括引入代码执行作为中间推理步骤Code-Interpreter Powered Reasoning使模型能进行精确的数值计算设计视觉特定的奖励函数如空间定位奖励。视频推理TinyLLaVA-Video-R1展示了在视频理解任务中的推理能力。模型不仅能分析视频内容还能评估选项、进行逐步推理并在视频中定位相关片段。3D空间推理SpatialThinker通过空间奖励函数增强多模态LLM的3D理解能力。RL训练曲线显示响应长度呈现先降后升的非单调趋势标志着模型从简单感知向结构化空间推理的过渡。自动驾驶AutoDrive-R²在VLAVision-Language-Action模型中引入物理约束的GRPO训练使模型在轨迹规划中展现出四阶段自我反思能力包括运动建模验证和物理一致性检查。9.5 测试时计算扩展的技术实现实现有效的测试时计算扩展需要系统性的搜索策略。当前主流方法可分为三类表格策略类型代表方法核心机制适用场景并行扩展Best-of-N, 自一致性独立采样多个响应通过多数投票或验证器选择最优答案可验证任务顺序扩展迭代修正, Tree-of-Thoughts基于中间反馈逐步优化推理路径多步复杂推理搜索扩展MCTS, Beam Search构建推理树动态剪枝与扩展高价值分支组合优化问题蒙特卡洛树搜索MCTS成为关键使能技术。rStar-Math将MCTS与过程奖励模型PRM结合使小模型能在数学推理上接近大模型性能。在扩散语言模型中MEDAL框架利用MCTS探索最优去噪路径实现22%的性能提升。9.6 蒸馏将推理能力迁移至边缘设备DeepSeek-R1的另一重要贡献是推理能力蒸馏。通过使用R1生成的80万条高质量推理数据对开源模型Qwen、Llama系列进行微调小模型可获得超越其基线的推理能力DeepSeek-R1-Distill-Qwen-1.5B在AIME上达到28.9%超越GPT-4o和Claude-3.5-SonnetDeepSeek-R1-Distill-Qwen-7BAIME 2024得分55.5%超越QwQ-32B-PreviewDeepSeek-R1-Distill-Qwen-32BAIME 2024得分72.6%MATH-500得分94.3%与o1-mini相当这一发现验证了大模型探索小模型利用的范式——通过RL让大模型自主发现推理模式再通过监督学习将模式迁移到计算受限的小模型。9.7 局限性与挑战尽管o1-like模型取得突破仍面临多重挑战过度思考Overthinking模型在找到正确答案后仍继续生成冗余推理内容导致计算浪费和潜在的错误偏离。研究表明响应长度与准确率并非单调正相关存在最优思考深度。幻觉与可靠性更强的推理能力并未自动带来更高的可信度。RFT训练的模型在事实检索任务上可能产生更严重的幻觉因其倾向于为模糊问题编造看似合理的推理链。路径依赖一旦模型进入错误推理路径后续步骤难以恢复。CoT Derailment思维链脱轨问题在长序列推理中尤为突出特别是在小容量模型中。多语言混杂DeepSeek-R1在处理非中英语言时可能使用英语进行推理破坏用户体验。提示敏感性o1-like模型对few-shot提示敏感零样本设置通常优于少样本设置这与传统LLM行为相反。9.8 未来方向受控推理与架构融合元认知控制框架MERA最新研究提出将推理过程显式解耦为推理组件和控制组件使模型能够监控自身思考过程并自适应决定何时继续、回溯或终止从而解决过度思考问题。Bayes自适应RL传统马尔可夫RL难以解释测试时反思的价值。Bayes自适应RL框架将探索-利用权衡延续到测试阶段为反思性探索提供理论保障。与高效架构的融合当前o1-like模型多基于标准Transformer架构。将其与Mamba等线性复杂度架构结合可能实现既具备深度推理能力又支持超长上下文的下一代模型。PromptCoT-Mamba-7B已证明纯Mamba架构可通过CoT微调实现与o1相媲美的推理性能这为高效架构深度推理的融合提供了初步验证。