Cognition发布FrontierCode：突破现有局限，精准衡量AI代码“可合并性”

张

张建站

2026/6/12 13:05:27

10分钟阅读

Cognition发布FrontierCode：突破现有局限，精准衡量AI代码“可合并性”

【导语当AI编程模型代码正确性不再是难题衡量代码“质量”成新焦点。Cognition发布FrontierCode评测基准与现有基准不同聚焦代码是否能被维护者合并为AI编程能力评估带来新变革。】FrontierCode聚焦代码“可合并性”评测当AI编程模型的代码正确性不再是问题如何衡量代码“质量”成为新焦点。Cognition发布的FrontierCode是专门衡量AI模型能否写出达到生产合并标准代码的评测基准。它与现有编程评测基准不同不评估“代码对不对”而是关注“维护者会不会真的合并这个PR”。现有基准局限性凸显当前主流编程评测基准如SWE - Bench Verified和Pro设计针对能力较弱阶段的模型存在明显局限性。它们只验证代码的功能正确性不验证代码质量且误分类错误率较高即通过测试的代码补丁未必能被人类维护者真正接受。METR实验证实许多在现有基准上高分的模型生成的补丁在实际代码审核中会被拒绝。FrontierCode的创新解决思路FrontierCode与开源社区顶级维护者合作36个旗舰开源项目的维护者参与任务构建每人花在每个任务上的时间超过40小时。他们定义了各自代码仓库中“可合并”的具体标准并将这些标准转化为评分规则。评分维度涵盖行为正确性、回归安全性、机械清洁度、测试质量、代码范围以及代码质量等方面。为解决测试覆盖不足问题引入“反向经典测试”机制确保测试的有效性还引入“自适应经典评分”方法对多样化解法进行严格而确定的测试。各模型在FrontierCode下的表现FrontierCode共包含150个任务分为三个难度子集。目前最佳模型Claude Opus 4.8在最难的Diamond子集上仅得分13.4%GPT - 5.5得6.3%Gemini 3.1 Pro得4.7%开源模型中表现最好的Kimi K2.6在Diamond上仅得3.8%这表明即使是当前最强大的模型在这项新标准下仍有巨大提升空间。FrontierCode准确排名推动能力突破Cognition表示FrontierCode的评分误差比SWE - Bench Pro低81%是目前最准确的模型能力排名。为防止任务污染Cognition不打算公开任务内容而是向所有模型开发者开放评测服务希望推动前沿编程能力的进一步突破。编辑观点FrontierCode的出现弥补了现有编程评测基准的不足为AI模型生成代码的质量评估提供了更精准的标准有望推动AI编程能力迈向新高度。

NXP Kinetis KL02超低功耗MCU实战：从Cortex-M0+架构到物联网节点设计

1. 项目概述：为什么选择Kinetis KL02这颗“小钢炮”？在嵌入式开发领域，尤其是物联网（IoT）节点、可穿戴设备、智能传感器和便携式医疗仪器这类对功耗和尺寸都极其敏感的应用中，选型往往是一场艰难的权衡。你…...

2026/6/9 21:27:54 阅读更多 →

Bandcamp音乐收藏自动化备份方案：专业级批量下载工具深度解析

Bandcamp音乐收藏自动化备份方案：专业级批量下载工具深度解析【免费下载链接】bandcamp-downloader Download your bandcamp collection using this python script. 项目地址: https://gitcode.com/gh_mirrors/ba/bandcamp-downloader 在数字音乐时代&#…...

2026/6/9 21:25:13 阅读更多 →

如何在5分钟内实现HTML到Word的专业转换：html-to-docx完整指南

如何在5分钟内实现HTML到Word的专业转换：html-to-docx完整指南【免费下载链接】html-to-docx HTML to DOCX converter 项目地址: https://gitcode.com/gh_mirrors/ht/html-to-docx 你是否曾经遇到过这样的场景？精心设计的网页内容需要转换为Word…...

2026/6/11 14:16:09 阅读更多 →

JPEXS Free Flash Decompiler：SWF逆向工程架构解析与技术实践

JPEXS Free Flash Decompiler：SWF逆向工程架构解析与技术实践【免费下载链接】jpexs-decompiler JPEXS Free Flash Decompiler 项目地址: https://gitcode.com/gh_mirrors/jp/jpexs-decompiler JPEXS Free Flash Decompiler是一款基于Java开发的开源SWF文件…...

2026/6/12 20:01:24 阅读更多 →