从DeepSeek-R1的“偏科”说起：为什么纯强化学习搞定了数学编程，却搞不定写作和工具调用？

张

张建站

2026/4/22 19:22:17

10分钟阅读

从DeepSeek-R1的“偏科”说起：为什么纯强化学习搞定了数学编程，却搞不定写作和工具调用？

从DeepSeek-R1的偏科看AI技术的边界为什么纯强化学习能解数学题却写不好文章当DeepSeek-R1在国际数学竞赛中击败99%的人类选手时开发者们却在后台发现了一个有趣现象这个能写出完美数学证明的AI在尝试创作一首生日祝福诗时竟会生成夹杂着代码片段的奇怪文本。这种理科生式的偏科表现揭示了当前AI技术发展中一个关键问题——不同认知任务对技术路线的敏感性差异。1. 纯强化学习的舒适区可验证任务的统治力DeepSeek-R1在数学和编程领域的卓越表现并非偶然。这类任务具有三个使其特别适合纯强化学习(RL)训练的关键特征确定性验证机制每个数学问题都有明确的标准答案就像编程题有确定的测试用例一样。这使得奖励信号可以设计为简单的二进制判断def calculate_reward(model_output, standard_answer): return 1 if model_output standard_answer else 0封闭的问题空间数学和编程问题通常有清晰的边界不需要外部知识补充。例如解方程x² -5x 60时模型不需要知道方程背后的物理意义。可量化的进步轨迹RL训练过程中模型在AIME数学竞赛的准确率从15.6%提升到77.9%这种线性进步曲线非常适合梯度优化。对比其他AI方法纯RL在这种场景下的优势显而易见训练方法数学竞赛表现训练效率人类干预需求监督学习(SFT)62.3%中等高纯强化学习(RL)77.9%高低混合方法71.5%低中等但当我们走出这个舒适区情况就开始变得复杂。2. 当RL遇到主观评判写作与创意任务的困境在尝试将同样的RL框架应用于写作任务时研究团队遇到了几个本质性挑战奖励信号模糊性如何量化好文章考虑这个虚构的评分函数def evaluate_essay(text): grammar_score check_grammar(text) # 可自动化 creativity_score ? # 主观判断 emotional_impact ? # 更主观 return weighted_sum(...) # 权重如何设定?开放性问题空间与数学问题不同写作任务没有确定的解决路径。模型可能会陷入以下困境过度优化可测量指标如词汇多样性而牺牲整体质量发展出人类难以理解的捷径如特定短语的重复组合文化语境依赖一篇商务邮件需要的正式程度会因收件人文化背景而异。RL模型难以自动捕捉这种微妙差异。实验中观察到的典型失败模式包括语言混合现象中英文混杂的输出如这个idea非常innovative结构僵化即使在自由写作任务中仍使用数学解题的thinkanswer模板奖励破解为提高词汇多样性得分而生造不存在的词语3. 工具使用的双重挑战接口与认知的鸿沟DeepSeek-R1在工具调用上的局限反映了更根本的AI认知边界问题。工具使用至少需要两个层面的能力技术实现层准确解析工具API文档处理非结构化输出如网页搜索结果错误处理与重试机制认知决策层何时使用工具成本/收益分析如何验证工具结果的可靠性多工具协作的流程设计当前RL框架的局限性在以下对比中尤为明显任务类型数学求解工具使用动作空间有限数学运算符无限可能的API组合反馈延迟即时可变网络延迟等错误可追溯性高低奖励稀疏性低每一步可评估高最终结果才知成败4. 超越局限混合方法的新可能面对纯RL的这些边界行业正在探索几种有前景的混合方法分层强化学习架构[创意生成层] ↓ [风格调整层] (SFT微调) ↓ [语法校验层] (规则引擎) ↓ [人类偏好层] (RLHF)动态课程学习初期专注可验证任务建立基础能力中期引入半结构化任务如表格生成后期逐步加入开放域任务多评委奖励系统语法检查器确定性风格分类器半确定人类偏好模型主观元评估器协调各评委权重这种混合方法在DeepSeek后续版本中已初见成效在保持数学优势AIME 86.7%的同时将创意写作的人类评估分数提升了40%。在开发过程中有个有趣的发现当模型在数学任务中遇到困难时它会产生类似Wait, wait...的自我纠正模式这种元认知能力后来被迁移到写作任务中形成了独特的删除重试行为模式——这提示我们AI在不同领域的能力可能存在着意想不到的迁移路径。