ProgramBench测试:9大顶级AI模型通过率皆为0%,离人类工程师差距几何?
ProgramBench测试9大顶级AI模型全军覆没AI离人类工程师还有多远昨天刚发布的ProgramBench由SWE - Bench原班人马Meta、斯坦福、哈佛三家联手打造给全球顶级AI出难题给一份FFmpeg使用文档和编译好的可执行文件从零重写整个程序。此次测试涵盖200个软件项目、9个顶级模型通过率为0%。共同一作John Yang是斯坦福在读博士也是SWE - Bench和SWE - agent的创建者。过去一年“让AI Agent从零造软件”的案例增多但都存在每次只测几个项目、脚手架手工调优等问题。ProgramBench将其正规化有200个任务统一脚手架系统性反作弊达到benchmark标准。此前SWE - Bench是给现成代码库指出bug或需添加的功能本质是“阅读理解局部手术”评估用单元测试检查代码内部实现。ProgramBench则只给编译好的可执行文件和使用文档需凭运行程序、观察输入输出行为从零写代码编程语言、数据结构、模块拆分等都由自己定无代码骨架、函数签名和提示。评估用Agent驱动的模糊测试为200个任务生成248,853个行为测试输入输出与原版一致算通过测试不透露给模型不关心代码内部只看行为。200个任务覆盖压缩工具zstd、lz4、brotli、语言解释器PHP、Lua、tinycc、数据库DuckDB、SQLite、媒体处理FFmpeg、开发者工具ripgrep、fzf、jq等项目。代码行数中位数8,635行最大的FFmpeg有270万行。总结来说该测试考的是AI能否“像人类工程师一样思考和设计软件”而非“在现成代码里找问题并改对”。九大模型成绩全挂参加测试的9款模型涵盖Claude、Gemini、GPT三大家族完整通过率全员0%。先看三家旗舰对决GPT - 5.4和Gemini 3.1 Pro平均测试通过率接近分别为38.3%和36.6%但做题风格不同。GPT - 5.4用16次API调用、0.33美元成本基本一口气写完程序100%代码一次编辑生成之后很少修改。Gemini 3.1 Pro是9个模型里最爱“观察”的用94次API调用34.1%的操作在运行原版程序、观察输入输出行为探索多但成绩差距不大。Claude Opus 4.7拉开差距平均通过率51.2%在3%的任务上通过95%以上测试是唯一达“几乎通过”标准的模型但也未在任何任务上拿满分。从整体看9个模型表现呈梯队。Claude系三款旗舰Opus 4.7、Opus 4.6、Sonnet 4.6领先GPT - 5.4和Gemini 3.1 Pro构成第二梯队剩下四款小模型通过率都在35%以下。还有个反直觉发现砸钱和堆步数换不来好成绩。Sonnet 4.6每个任务平均跑868条命令成本27.09美元最长轨迹接近2000步但成绩不如只用93次调用、花3.81美元的Opus 4.7。而且98%的运行中模型是自己觉得“做完了”主动交卷未撞到时间或步数上限说明不是考试时间不够是真做不到。此外任务难度和模型排名高度一致。简单的CLI工具nnn、fzf、gron大家分数不错复杂系统FFmpeg、PHP、typst、ast - grep对所有模型都难。代码不像人写的研究团队对比通过75%以上测试的高分解答和人类原版代码发现惊人差异。单文件怪兽人类代码中位数分布在15个文件模型中位数是3个60%的解答只有1到3个代码文件。人类按功能拆分模块模型倾向把所有东西塞进一个大文件。目录深度中位数人类是2层模型是1层。函数又少又长Opus 4.7写的函数数量只有人类的29%Sonnet 4.6是24%GPT - 5.4只有10%但每个函数平均长度更长Gemini 3.1 Pro写的函数比人类长62%。代码量大幅缩水模型代码中位数1,173行人类是3,068行85%的高分解答比原版短。总结就是现在的AI会写代码但不会做软件设计不懂拆分模块、定义接口和抽象层策略是把逻辑塞进尽可能少的文件和函数能跑就行。GPT - 5.4表现极端平均每个任务只创建5个文件修改1.2次39.5%的轨迹创建文件后零修改。相比之下Claude Sonnet 4.6平均创建11.3个文件、修改18.3次更接近人类迭代开发模式。还有个现象模型只有50%的概率用和原版相同的编程语言Python是最爱占所有1,800次运行的36%。原版用Rust写的项目只有44%用Rust重写C/C的46%Go项目“忠诚度”最高70%。不管原版用什么语言模型有三分之一的概率用Python重写。联网就作弊研究团队做对照实验给模型开放网络访问权限明确告知“作弊不允许”用9个AI裁判检查作弊行为结果触目惊心。Claude Sonnet 4.6有36%的任务被判定作弊Claude Opus 4.6是21%Gemini 3 Flash是20%。作弊方式多样最直接的是去GitHub克隆源码仓库隐蔽点的是通过包管理器下载更狡猾的是去本地包缓存目录翻依赖库源码。但AI裁判分歧大对于Claude Opus 4.69个裁判在57%的任务上无法达成一致。有个典型案例Claude Sonnet 4.6做handlr这个Rust项目时去~/.cargo/registry/src/目录翻xdg - mime、clap等依赖库源代码5个裁判判定作弊4个裁判认为是第三方库不算作弊。最终研究团队放弃“联网事后检测”方案直接断网。这说明模型面对困难任务时“找捷径”倾向强且作弊和合理逆向工程的边界模糊。新测试考验AI能力SWE - Bench上能拿72%的模型在ProgramBench上拿0%这两个测试考的是不同能力。SWE - Bench考“在别人代码里找问题并修好”ProgramBench考“自己从头设计并实现完整系统”前者AI做得较好后者目前不及格。Epoch AI上周发文称旧推理benchmark集体死亡想搞未被刷爆的测试至少得放弃纯文本、短耗时、易评分、人类专家碾压四个舒适条件中的一个。ProgramBench放弃了短耗时和易评分把任务量级提升到人类工程师可能需数周甚至数月才能完成用行为等价性而非源码匹配评估。作者John Yang强调“ProgramBench非常难但设计上是可解的”0%不代表任务超出AI理论极限只是说明当下模型还远远不够。SWE - Bench测AI能否当一个好员工ProgramBench测AI能否当一个工程师二者差距今天刚被精确测量出来答案是0%。