coding 会被推到模型前沿不奇怪。它可能是少数同时满足三件事的场景答案能被机器验收任务能自然拉长做出来的东西马上能进入真实工作流。写作文、写报告、做营销文案也有价值可这些任务的好坏很难稳定判分。代码不一样。编译能不能过测试能不能绿线上日志有没有报错issue 有没有关掉反馈很硬。模型在这种环境里训练和评估少了很多自说自话的空间。SWE-bench 最早把真实 GitHub issue 放进评测里论文里提到首批最强模型 Claude 2 只能解决 1.96% 的问题。这个数字当时很低却把方向找准了模型要读仓库、理解 bug、改多个文件、跑测试再根据失败结果回头修。这张图把代码任务里的闭环拆开问题、改动、测试和回滚都能留下硬反馈。这也是 coding 和普通问答最大的差别。普通问答错了很多时候只能靠人判断。代码错了终端会直接报出来。模型可以被迫面对错误也可以反复修正。这个过程很像一个初级工程师成长只是反馈密度高得多。METR 那篇长任务研究给了另一个观察前沿模型能自主完成的任务时长过去几年大约每七个月翻一倍。这个指标为什么常常落在软件任务上因为软件工程天然适合拆成多个可检查步骤。拉代码、读文档、改实现、补测试、跑 CI这条链路很长但每一步都有迹可循。长任务要在多个检查点之间持续修正模型需要一路读错误、改实现、再验证。对模型公司来说coding 还有一个现实好处他们自己天天用。做模型、做工具、做推理框架、做评测系统都需要工程效率。一个模型如果能帮自家工程师少掉一轮排查、少写一批胶水代码、快速搭出评测脚本它的价值不会停留在演示里。模型公司天然愿意把最强资源砸到这里因为收益能回流到研发本身。Anthropic 在 Opus 4.7 的发布里也把高级软件工程、长时间任务、验证输出这些点放在显眼位置。公开表述里反复强调复杂编码、长期执行、自己检查结果这说明 coding 已经从补全函数走到了代理式工程任务。这不代表所有人都会变成程序员。更可能发生的是越来越多岗位会被代码化的工作方式影响。运营要会让模型跑数据清洗脚本。产品经理要能让 agent 拉日志、读用户反馈、整理需求差异。研究员要会把资料抓取、去重、引用核查交给可复现流程。小团队老板要懂一点自动化知道什么任务可以交给 agent什么地方必须人工拍板。coding 能力会外溢到非程序员岗位重点是把任务交给可检查的流程。这里还有一层容易被忽略coding 是 AI agent 的训练场也会影响很多程序员之外的岗位。Agent 要学会计划、调用工具、保存状态、失败重试、控制成本。代码仓库正好把这些能力打包了。一个能修复杂 issue 的模型往往也更可能完成调研、表格、网页操作、文档改写这些跨工具任务。因为它学到的是如何在约束里行动。当然coding 热也会带来泡沫。很多产品会把自动补全包装成 agent把一次生成包装成工程协作。判断它有没有真能力不看宣传页看三件小事就够了。它能不能读懂现有项目别只会新建 demo。它能不能在测试失败后自己定位问题别只会道歉重写。它能不能把改动解释清楚让人敢合并。coding 成为主战场程序员付费只是表层原因。代码给模型提供了一套少见的硬反馈系统。谁能在这里学会长任务、验证和修正谁就更接近可用的生产力。