【LLM】code agent bench
一、函数级代码生成 Benchmark基础底座这类 benchmark 是最早期的代码评测基准任务粒度为单个函数通常作为 RL 训练的 warm-up 信号或早期评测。1. HumanEvalHumanEval 包含 164 个 Python 编程问题每题配有 unit test确立了广泛采用的 passk 指标。[7]任务形式是给定函数签名和 docstring要求模型补全函数体。HumanEval 要求模型完成独立的函数 stub而非在真实项目中调试真实 bug。[5]随着模型进步顶级方法在 HumanEval 上的通过率已超过 94%。[9]2. MBPPMostly Basic Programming ProblemsMBPP 将这一范式扩展到约 974 个众包入门级任务。[7]与 HumanEval 类似均为单文件、单函数场景两者都测试 docstring 到代码的转译能力衡量模型能否生成正确的函数体。[8]3. BigCodeBenchBigCodeBench 的任务广泛调用流行库的函数不限制模型可以使用的函数期望模型灵活选择并组合适当函数来解决问题测试用例被设计为运行时的测试套件来检验期望的程序行为。[3]**构造方式**BigCodeBench 以 ODEX 为种子数据集来自 Stack Overflow 的真实人类意图和对应的 Python 单行代码用 GPT-4 将这些单行代码扩展为完整的函数级任务然后由 20 名大多拥有 5 年以上 Python 经验的专家在执行沙盒中引导 GPT-4 不断细化任务并添加测试用例再由 7 名额外专家交叉审核质量。[3]4. LiveCodeBenchLiveCodeBench 是一个整体性、无污染的 LLM 代码评测 benchmark持续收集新题目并关注代码自修复、代码执行和测试输出预测等更广泛的代码相关能力而不仅仅是代码生成。[9]**构造方式**LiveCodeBench 使用自动化 HTML 爬虫从三大竞赛编程平台LeetCode、AtCoder、Codeforces收集题目。[8]LiveCodeBench 为题目标注发布日期从而可以对模型进行其训练截止日期后发布的题目的评测以衡量其对未见题目的泛化能力。[9]测试套件平均每道题生成超过 59 个测试采用随机和对抗式生成器来提升功能覆盖。[8]二、仓库级 Agentic Benchmark核心评测这是当前 Agentic RL Code Agent 最主流的评测场景任务为在真实代码仓库中多步自主完成软件工程任务。5. SWE-bench 系列5.1 SWE-bench原版SWE-bench 在仓库层面引入了Issue-to-PR范式要求模型在完整仓库上下文中生成补丁。[7]SWE-bench 包含来自 12 个开源 Python 仓库的 2,294 个任务实例测试模型能否解决真实的 GitHub issue。[8]**构造方式**构建过程遵循多阶段过滤和验证流程首先从历史 PR 中大规模挖掘候选仓库筛选与 GitHub issue 关联、且包含至少一处测试文件变更的 PR。[9]为保障可复现性对每个 issue 提供 Docker 镜像捕获精确的仓库基准快照、锁定的依赖版本和正确的构建工具链以消除环境漂移等干扰变量。[9]评测指标为 pass1主指标是解决率任务已解决要求同时满足补丁修复了指定 bug 或实现了功能新增的 fail-to-pass 测试通过且未破坏任何已有功能所有 pass-to-pass 测试仍通过。[2]5.2 SWE-bench VerifiedSWE-bench Verified 是 SWE-bench 中经过人工验证的 500 个实例的子集专为可靠评测 Coding Agent 而创建。[7]**构造方式**SWE-bench Verified 是与 OpenAI 合作创建的 500 个实例的人工过滤子集人工标注者对每个实例进行审核确保问题描述清晰、测试补丁正确并确认任务在可用信息范围内是可解决的。[7]评测运行在基于 Linux 的 Docker 容器中依赖根据 SWE-bench 构建规范安装实例化容器时会删除原始 GitHub issue 之后的所有 git 历史防止模型通过查看人工解决方案来作弊。[1]5.3 SWE-bench ProSWE-bench Pro 是比 SWE-bench 难度更高的 benchmark专为超出 SWE-bench 范围的现实、复杂企业级问题而设计包含来自 41 个持续维护仓库的 1,865 个问题涵盖业务应用、B2B 服务和开发者工具。[6]**构造方式**其数据收集策略包含两个互补措施仅选择 GPL 强著佐权许可证下的仓库构建公开集和隐藏集并从真实初创公司获取商业代码库用于商业集通过法律保护和限制数据访问来降低污染风险。[6]为保证任务复杂性排除了 1–10 行的简单修改仅保留需要大量多文件改动的问题平均参考解决方案跨越 4.1 个文件、107.4 行代码。[6]还引入了三个人在环检查点手动构建环境、人工增强 issue 描述和需求、人工验证测试的相关性和稳定性。[2]5.4 SWE-bench-LiveSWE-bench-Live 采用与 SWE-bench 相同的任务定义但引入了全自动流水线支持可扩展且持续更新的 benchmark 构建可容纳更多最新实例和更广泛的仓库覆盖。[8]**构造方式**构建流水线分三阶段首先从热门仓库中识别由 PR 解决的 GitHub issue然后使用 RepoLaunch一种 Agent 方法自动为每个候选实例搭建 Docker 执行环境最后对每个实例进行多轮测试执行验证其是否一致呈现预期的 issue 解决测试行为。[8]为保证新鲜度、降低预训练数据污染风险数据集只收录 2024 年 1 月 1 日至 2025 年 4 月 20 日之间创建的 issue。[8]6. Terminal-BenchTerminal-Bench 2.0 是一个精心策划的困难 benchmark由 89 个受真实工作流启发的计算机终端环境任务组成每个任务都有独特的环境、人工编写的解决方案和全面的验证测试前沿模型和 Agent 的得分低于 65%。[6]**内容覆盖**其困难子集包含挑战性任务测试 Agent 在代表性真实问题和终端使用模式下编译代码、训练模型、配置服务器、玩游戏和调试系统的能力。[7]**构造方式**为设计多样化的 benchmark任务通过开源社区众包方式收集93 名贡献者共创建了 229 个任务贡献者还为其任务标注了专家和初级工程师的完成时间预估。[1]7. MLE-benchML 工程 Agent 评测MLE-bench 是衡量 AI Agent 机器学习工程能力的 benchmark从 Kaggle 精选 75 场 ML 工程竞赛创建了一个多样化的挑战任务集测试训练模型、准备数据集、运行实验等真实 ML 工程技能并使用 Kaggle 公开排行榜建立人类基准。[2]**构造方式**从中选出 75 场竞赛包含 22 场低复杂度、38 场中等复杂度、15 场高复杂度的竞赛另有 7 场作为开发集。[3]对于每场竞赛若原始数据集可公开获取则直接使用若 Kaggle 未公开测试集则根据公开的训练数据手动创建新的训练/测试划分并验证原始与重构测试集的分布相似性。[3]每场竞赛包含问题描述、训练和测试数据集、评分代码、人类参赛者排行榜以及按经验工程师完成时间划分的复杂度评级。[10]三、RL 训练专用 Gym 环境这类环境不只是评测 benchmark更是 Agentic RL 训练的核心数据来源提供可验证的奖励信号。8. SWE-GymSWE-Gym 是第一个用于训练真实软件工程 Agent 的环境用于训练在 SWE-bench 上取得最先进开源结果的 LM Agent并展示出随训练和推理计算增加的良好扩展特性。软件工程 Agent 的进展一直受限于缺乏既包含 RL 严格验证又覆盖真实仓库级工程任务的训练环境。[4]SWE-Gym 是手动策划的软件 issue 数据集包含来自 11 个项目的 2.4k 个真实 Python 任务每个实例附带可执行环境和 unit test支持 Agent 训练和验证器训练。[6]9. SWE-smith使用 SWE-smith 可为 128 个热门 GitHub 仓库生成 5 万个任务实例这两个数字都比任何已有数据集高出一个数量级。[3]**构造方式**SWE-smith 的关键创新是反转了 SWE-bench 的流程——SWE-bench 先识别任务实例再构建环境SWE-smith 则先定义执行环境再在环境内合成任务实例。[3]给定一个仓库先确定安装和测试规范并创建 Docker 镜像然后利用自动化方法改变代码使之可能破坏已有测试。[3]10. R2E-GymR2E-Gym 通过将 commit 反向翻译将人工策划的 issue 扩展为 8000 多个带有自动生成测试和问题陈述的可执行任务并引入结合执行信号和无执行评分的混合验证器来改善测试时排名。[6]在实践中被证明是目前效果最好的 RL 训练数据集R2E-Gym 为 Agent 提供了充分的课程学习使其能随时间解决越来越难的问题。[1]11. SWE-rebenchSWE-rebench 从 GitHub 自动持续提取新鲜交互任务21k Python 任务维护滚动去污染的评测窗口和公开排行榜对大规模 RL 训练和无污染评测都很有用。[6]四、总结对比Benchmark任务粒度规模核心特点HumanEval函数级164题最早基线已接近饱和MBPP函数级~1000题众包入门题BigCodeBench函数级工具调用1140题真实库调用Human-LLM协作构造LiveCodeBench函数级竞赛题持续增长实时收集无污染多场景SWE-bench Verified仓库级500题人工验证业界标准SWE-bench Pro仓库级1865题企业级难度防污染设计SWE-bench-Live仓库级1319题持续更新全自动流水线每月更新Terminal-Bench终端交互89题多步终端工作流众包构造MLE-benchML工程75场竞赛Kaggle竞赛测试ML工程能力SWE-Gym训练环境2.4k任务首个SWE RL训练GymSWE-smith训练数据50k任务自动合成环境优先R2E-Gym训练环境8k任务commit反翻译自动生成测试整体趋势是Agent benchmark 从代码生成进化到软件工程再到 ML 流水线自动化和后训练但即使是最接近的 benchmark 也主要是静态的仅有 SFT 就能取得强结果而无需 Agent 实现 rollout、处理轨迹级奖励或维持在线数据收集。[2]这正是推动 SWE-bench Pro、SWE-bench-Live 和各类 RL Gym 环境不断涌现的根本原因。Learn more:GitHub - THUDM/AgentBench: A Comprehensive Benchmark to Evaluate LLMs as Agents (ICLR’24) · GitHubSWE-bench Verified | Epoch AIEvaluating Large Language Models on Self-invoking Code …GitHub - openai/mle-bench: MLE-bench is a benchmark for measuring how well AI agents perform at machine learning engineering · GitHubTerminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line InterfacesDeepSWE: Training a Fully Open-sourced, State-of-the-Art Coding Agent by Scaling RLAgent2 RL-Bench: Can LLM Agents Engineer Agentic RL Post-Training?SWE-Bench Pro Leaderboard AI Coding Benchmark (Public Dataset) | ScaleHumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code GenerationSWE-bench VerifiedTerminal-BenchMLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering | OpenAIGitHub - SWE-bench/SWE-smith: [NeurIPS 2025 DB Spotlight] Scaling Data for SWE-agents · GitHubGitHub - blacksnail789521/Agentic-RL-Training-Recipes: Training Recipes for Agentic Reinforcement Learning in LLMs: A Survey · GitHubSWE-bench LeaderboardsSWE-bench LiveCodeBench Leaderboard (March 2026) — AI Coding Benchmarks | BenchLM.aiBigCodeBench: The Next Generation of HumanEvalGitHub - harbor-framework/terminal-bench: A benchmark for LLMs on complicated tasks in the terminal · GitHubmle-bench: evaluating machine learning agents on …Scaling Data for Software Engineering Agents - SWE-smitharXiv:2509.16941v2 [cs.SE] 14 Nov 2025 SWE-Bench Pro: Can AI Agents SolveSWE-bench-Live LeaderboardEvalPlus LeaderboardSWE-bench, Agentic Coding, and What Actually Changed from Claude Sonnet 4.5 to 4.6 - DEV Community[2410.07095] MLE-bench: Evaluating Machine Learning Agents on Machine Learning EngineeringGitHub - SWE-Gym/SWE-Gym: Code for Paper: Training Software Engineering Agents and Verifiers with SWE-Gym [ICML 2025] · GitHubSWE-bench Verified (Agentic Coding) Benchmark LeaderboardRethinking Coding Agent Benchmarks | by Stephanie Jarmak | MediumSWE-bench Leaderboard 2026: All Model Scores, Rankings What They Actually MeanSWE-Bench Verified Benchmark LeaderboardUnderstanding LLM Code Benchmarks: From HumanEval to SWE-benchMLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering | OpenReviewTraining Versatile Coding Agents in Synthetic Environments10 AI agent benchmarksSWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?Where Do LLMs Still Struggle? An In-Depth Analysis of Code Generation BenchmarksRigorous Evaluation of Coding Agents on SWE-Bench[2601.11868] Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line InterfacesMLE-bench - OECD.AIToward Training Superintelligent Software Agents through Self-Play SWE-RLFeatureBench: Benchmarking Agentic Coding for Complex Feature DevelopmentSWE-bench VerifiedSWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous IntegrationBigCodeBench LeaderboardTerminal-Bench Hard Benchmark Leaderboard | Artificial AnalysisPaper page - MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering[2512.18552] Toward Training Superintelligent Software Agents through Self-Play SWE-RLGitHub - murataslan1/ai-agent-benchmark: AI coding agents comparison - 80 agents, SWE-Bench leaderboard, pricing. Devin, Cursor, Claude Code, Copilot, and more. December 2025. · GitHubLLM Coding Benchmarks Explained: Evaluate Models for Agents | Blaxel BlogSWE-bench Goes Live!SWE-Bench Pro Benchmark LeaderboardLiveCodeBench: LLM Code Evaluation BenchmarkTerminal-Bench 2.0 Explained: How We Measure Agentic Coding | BenchLM.aiMLE-bench: Evaluating Machine Learning Agents on Machine Learning EngineeringSWE-RM: Execution-Free Feedback for Software Engineering AgentsTop 7 Benchmarks That Actually Matter for Agentic Reasoning in Large Language Models - MarkTechPost2025-12-23 SWE-EVO: Benchmarking Coding Agents inLiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for CodeSWE-Bench Explained: Benchmarks, Verified, Pro, and the 2026 LeaderboardSWE-bench Verified Issues BenchmarkTerminal-Bench 2.0ICLR 2025 MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering OralSWE-smithBuilding Efficient RL Training for the Agentic Era - SalesforceSWE-Bench: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source RepositoriesLiveCodeBench Benchmark LeaderboardGitHub - bigcode-project/bigcodebench: [ICLR’25] BigCodeBench: Benchmarking Code Generation Towards AGI · GitHubGitHub - microsoft/SWE-bench-Live: [NeurIPS 2025 DB] SWE-bench Goes Live!Understanding AI Benchmarks - by Shrivu ShankarOpenAI’s MLE-bench Tests AI Coding Agents