这项由上海交通大学主导、联合SII与GAIR研究团队完成的研究于2026年5月以预印本形式发布论文编号为arXiv:2605.02661。有兴趣深入了解的读者可以通过该编号查询完整论文。**研究概要**每个用过AI助手做作业的学生大概都有这样的经历把题目喂给AI得到的答案要么驴唇不对马嘴要么做到一半就卡住了最后还是得自己动手。上海交通大学的研究团队把这个令学生们头疼的现象变成了一个严肃的科学问题——既然AI总是在某些作业上翻车那么把这些翻车现场系统地收集起来是不是就能测出AI的真实能力边界这就是AcademiClaw诞生的逻辑。研究团队邀请了大量本科生把自己亲身经历过的、让AI束手无策的真实学业任务整理成题目最终筛选出80道横跨25个以上专业领域的考题搭建出一个专门考验AI智力上限的测试平台。为了让这套测试经得起推敲每道题都运行在隔离的虚拟环境里用六种不同的评分方法打分还有一套安全审查机制全程盯着AI的一举一动。结果怎么样即使是当前最强的AI模型及格率也只有55%。这个数字背后藏着很多值得细看的故事。---一、为什么已有的AI测试都不够用现在市面上不缺AI测试工具。SWE-bench让AI去修GitHub上的真实代码漏洞WebArena让AI在真实网页环境里完成操作任务还有各种各样的问答榜单。但这些测试有一个共同的问题它们基本上都在考秘书级别的任务也就是帮人发邮件、整理日历、填写表格、从PDF里提取信息之类的活儿。这些任务当然有用但它们并不能告诉我们AI在真正烧脑的工作上表现如何。一个能帮你安排会议的AI未必能帮你推导数学竞赛题目一个能整理表格的AI未必能调试一个跑在GPU上的强化学习训练代码。然而在现有的测试体系里后面这些高含金量任务几乎是缺席的。研究团队梳理了OpenClaw生态系统一个被广泛使用的开源AI代理框架下的所有现有测试基准发现情况确实如此。PinchBench、Claw-Eval、ClawBench、WildClawBench、LiveClawBench这些测试的任务来源无一例外都是研究者自己设计的难度停留在助手级别没有一个涉及GPU运算也没有一个真正需要深厚专业知识才能完成。这就导致一个荒谬的现象AI在这些测试上表现不错让人误以为AI已经很厉害了但一到真实的学术场景就露馅。AcademiClaw要填补的正是这个空缺。它的核心思路不是让研究者坐在书桌前设计题目而是去找那些真正被AI坑过的用户——也就是学生让他们把自己吃的亏变成考题。---二、怎么从学生的翻车经历里收集到好题目题目收集的过程本身就很有意思。研究团队面向正在修读大型语言模型技术课程的本科生发出邀请请他们提交自己在课业、竞赛、科研或个人项目中遭遇过的、曾经把当前AI难倒的任务。有一个硬性门槛提交者必须亲自用过至少一款主流AI代理工具比如Claude Code、Codex或Cursor并且可以确认那个AI要么直接做不出来要么需要经过大量反复交互才勉强凑出一个差强人意的结果。换句话说题目不能是研究者凭感觉觉得AI做不了的而是学生真刀真枪测试过确实做不好的。这样征集来的原始候选题目共有230道。但原始提交良莠不齐有的题目说不清楚要做什么有的评分标准写得模糊有的难度太低或者难度失控有的在某一个领域堆了太多题。于是专家团队对每道题进行了严格审核从五个维度逐一把关题目描述是否清晰完整评分逻辑是否准确同样的提交是否每次都能打出一致的分数难度是否合适以及各领域是否分布均衡。审核并不只是看纸面。每道通过初审的题目都要用AI实际跑一遍确认整个流程没有问题评分脚本不会出现做了一堆事情最后还是0分或者随便写点什么就能骗到高分这样的情况。经过两轮筛选230道候选题最终剩下80道其中49道英文题、31道中文题。被淘汰的主要原因依次是评分逻辑有缺陷57道题目描述不清晰34道难度不合适28道某个领域题目太集中18道以及环境依赖难以复现13道。最终留下的80道题平均每道需要AI调用33次工具最复杂的题目需要调用136次平均耗时11.7分钟最长的一道超过40分钟。这不是随便问几个问题就能搞定的测试而是需要AI持续思考、反复尝试、像人一样工作很长时间的考验。---三、80道题都考什么——从奥数到强化学习的跨越这80道题被分成六大类覆盖25个以上的专业方向构成了一幅相当壮观的学科版图。第一大类是研究与分析共21道题。这里有需要分析ESP32-S3微控制器多外设固件的嵌入式系统题有要在剥离掉大量环境因素之后估算F1赛车手真实优势的数据分析题还有各类技术报告写作和文献综述任务。第二大类是机器学习与AI工程共17道题。包括在昇腾NPU硬件上部署多语言语音识别系统、实现同构奇异值分解多任务模型合并、训练强化学习代理等。这一类里有16道题需要真正的GPU才能跑这在现有所有AI基准测试里都是独一无二的存在——此前没有任何一个OpenClaw生态的测试基准包含GPU任务。第三大类是软件工程同样17道题。从用BVH加速结构实现蒙特卡洛路径追踪渲染器到对包含混淆载荷的安全事件进行取证分析考的都是需要深度工程经验的硬活。第四大类是STEM推理11道题。这里有中国数学奥林匹克2024年的证明题有国际语言学奥林匹克2025年的题目还有需要逻辑推导解决的谋杀谜题。这一类是整个测试里最难的没有一个模型能在这里拿到高分。第五大类是语言与创意7道题。有把古典唐诗改编成现代流行歌词的任务有为特定音乐曲目设计锁定舞编排并配上音乐分析的任务——这些题目的中文版本尤其有趣因为它们本质上是文化性的不能简单翻译成其他语言考的是对汉语声韵、典故意象和当代流行文化的综合理解。第六大类是应用与专业领域7道题包括日本麻将立直计算器和多约束条件旅行路线规划这样高度专业化的任务。---四、怎么给AI打分——六种方法联合出击给AI的工作打分是一件很微妙的事情。对于11等于几这种问题对就是对错就是错。但对于帮我写一首把李白诗改编成流行歌词的曲子或者实现一个能跑在GPU上的强化学习训练框架单纯用对错来判断就太粗糙了。研究团队为每道题设计了定制化的评分方案满分100分分成3到6个相互独立的评分维度最终加总得出总分。75分以上算通过。更关键的是他们把六种不同的评分技术组合在一起使用每种技术各司其职。第一种是模式匹配用正则表达式、关键词检测和代码结构分析来验证代码或文本的格式是否正确。第二种是代码执行把AI写的程序真正编译运行起来对着已知答案逐一检查输出结果。第三种是大模型评判对于报告、分析文章、创意写作这类开放性输出用另一个AI模型充当评审根据结构化评分表给出评价同时保留一套确定性的兜底规则防止评判模型出故障时整个评分瘫痪。第四种是视觉模型评判专门用来检查图表、可视化效果或界面截图和参考图像比对。第五种是端到端浏览器测试用Playwright工具在无界面浏览器里打开AI开发的网页应用模拟真实用户操作看页面有没有报错、交互有没有响应、显示效果像不像样。第六种是结构化输出验证检查JSON格式、CSV文件内容、BibTeX参考文献条目、Excel表格数据是否符合规范。用这六种方法打出来的分数能够精确告诉我们AI在哪一个环节出了问题而不只是给一个笼统的失败结论。除了评分研究团队还对每次AI运行进行了安全审计追踪五类潜在风险AI有没有乱删文件或修改系统有没有泄露敏感信息有没有超出指定工作目录的范围行事有没有试图提升自己的权限以及有没有从不明来源安装未经验证的软件包。这些安全记录独立于任务评分之外构成了对AI行为的另一个维度的观察。---五、六大AI模型的真实成绩单研究团队选了六款当前主流的前沿模型来参加这场考试Anthropic家的Claude Opus 4.6和Claude Sonnet 4.6OpenAI的GPT-5.4Google DeepMind的Gemini 3.1 Pro阿里巴巴的Qwen3.5-397B以及MiniMax的M2.7。每道题每个模型只有一次机会没有重试。成绩单出来之后最显眼的数字是这样的成绩最好的Claude Opus 4.6平均得了71.9分通过率55%Claude Sonnet 4.6平均68.3分通过率同样是55%GPT-5.4平均65.6分通过率42.5%Gemini 3.1 Pro平均64.3分通过率43.8%Qwen3.5-397B平均64.7分通过率40%MiniMax M2.7平均63.1分通过率37.5%。第一梯队和末位之间的平均分差只有8.8分但通过率差距达到17.5个百分点。这说明分数相差不大的模型在能不能过关这个问题上差别其实挺大的——很多题目是那种要么做出来要么做不出来的性质不存在太多中间地带。在不同分数段的分布上排名靠后的模型有更多题目落在50到74分的半成品区间Qwen3.5和MiniMax约35.6%两个Claude模型约29.4%同时也有更多题目直接低于50分25.6%对比15.6%。如果把及格线提高到80分Claude Opus的通过率还有46.2%而MiniMax只剩23.8%差距进一步拉大。整套测试里有23道题让所有六个模型都没能通过其中8道题所有模型的得分都低于50分。这部分题目是当前AI技术真正的盲区。---六、哪类题难、哪类题容易——差距大得出乎意料把成绩按题目类别拆开看会发现一个规律性很强的现象题目类别对成绩的影响远远大于选哪个模型的影响。六大类题目的平均分从76.9分到50.6分不等跨度达到26.3分。而六个模型之间的平均分差只有8.8分。换一种说法换一个更好的AI模型带来的提升有限但换一种类型的题目对成绩的影响可以是换模型的三倍。语言与创意类题目平均分最高达到76.9分说明AI在生成文本、进行创意写作方面已经相当靠谱了哪怕是专业化的细分场景也能应付。软件工程类平均分也不错处于第二梯队说明代码工程任务只要边界清晰、接口明确AI还是能干得不错的。STEM推理类则是彻底的重灾区平均分只有50.6分而且这还是平均数有很多题目的得分远低于这个数字。第36届化学奥林匹克竞赛题是一个典型案例六个模型的得分集中在23到27分之间标准差只有1.4意味着所有AI在这道题上都挤在同一个糟糕的分数区间谁也没有明显优势——这不是某个模型运气不好而是整体性的能力缺失。还有一道React加FastAPI的全栈调试题六个模型全部得了精确的25分标准差为零。这种集体相同的失败说明的是系统性的短板而不是随机错误。模型之间的排名并不固定在不同类型的题目上会发生翻转。Claude Opus在四个类别里排名第一但在语言与创意类里被GPT-5.4以83.7分超越。Claude Sonnet在ML与AI工程类拿了所有模型里的最高分74.1却在应用与专业领域类跌到58.4前后相差15.7分。GPT-5.4的内部落差最夸张在语言类和应用类之间的分差达到34.3分比最好模型和最差模型的整体平均分差还要大。少数题目展现出极端的分化。从《百年孤独》里提取多代家族树的任务Claude、GPT和Gemini打出86到92分而MiniMax和Qwen只有3分分差达到惊人的90分。这种极端分化揭示的是长文本文学理解能力上的根本性差距不是细节上的高下之分。TensorFlow转PyTorch框架迁移任务则出现了另一种有趣的情况GPT-5.4直接得了0分其他所有模型都在74到90分之间——这暗示GPT-5.4存在特定框架上的盲点只有包含足够多样类型的测试才能把这种盲点暴露出来。---七、三种不同的做事风格——AI的行事流派除了分数之外研究团队还仔细观察了每个AI在完成任务时的行为模式发现六个模型可以归入三种截然不同的做事流派。Claude Opus 4.6走的是读透再动手路线。它所有工具调用中有41%用于读取文件是排名最后的Gemini的8.6倍。它的执行次数和读取次数大体相当比例接近1:1——这是六个模型里唯一一个在阅读和执行之间保持平衡的。这种策略需要在前期投入大量时间理解任务但换来的是最高的平均分71.9分。研究团队把这种效果叫做理解红利多读一些做得更好。Gemini 3.1 Pro走的是先跑起来再说路线。它74.3%的工具调用都是shell执行命令执行次数和读取次数的比例高达28:1而且进程管理调用的次数是其他模型平均值的4.2倍。这种策略像是一个习惯于试了再看的工程师——第一次跑失败了就修改参数再跑跑失败了再换个方式再跑靠反复尝试来接近答案。结果是Gemini消耗的token数量最多每道题平均286万成绩却只有64.3分低于消耗token数量是它五分之一的GPT-5.4。快速执行不仅没能带来更好的结果还带来了更多的安全风险——大量未经检查的shell执行命令更容易触碰到工作范围的边界。GPT-5.4走的是能省则省路线。它每道题平均只调用19次工具是六个模型里最少的消耗的token也最少平均每题52.5万完成时间最短平均只要240秒。但它的得分是65.6分排名第三。没有一个工具类别的使用比例超过45%说明它在内部想清楚再出手而不是边想边做。最终用最少的资源拿到了排名中游的成绩。其余三个模型在这两个极端之间各有侧重Sonnet和Qwen靠近中间MiniMax则偏向先执行一侧执行调用占比65.9%。---八、更多token等于更好的结果吗这是整篇研究里最反直觉的发现之一。把480次模型与任务的配对评分全部放在一起计算token消耗量和任务得分之间的相关系数结果是-0.03p值0.49。-0.03接近于零意味着几乎完全没有相关性p值0.49意味着这个结果连统计显著性的门槛都没过。换一句话说一个AI在一道题上花了多少token和它最后得了多少分没有任何规律性的关联。这个结论在每个模型内部单独检验时也成立。六个模型各自的token-成绩相关系数全部落在-0.077到0.051之间没有一个超过0.08所有p值都远高于0.05的显著性门槛。Gemini消耗token最多但成绩不是最好的GPT-5.4消耗token最少但成绩排在第三位高于比它消耗更多token的Gemini。这个现象指向一个深层问题AI目前普遍缺乏知道什么时候该停下来的机制。它们会在找到答案之后继续尝试在陷入错误路径时也会继续执行直到时间耗尽或者token用完而不是在事情变得没有意义时主动终止。学术界把这种现象叫做过度思考惩罚——花了更多力气换来的反而是效率下降而不是质量提升。---九、安全行为——哪里最容易出问题在安全审计这个维度上五类风险项目里有四项表现相对均匀破坏性操作各模型得分85到95之间信息泄露87到90之间权限升级90到98之间供应链风险73到83之间。权限升级这一项是最让人放心的——所有模型都很少试图执行需要管理员权限的命令这说明当前AI的安全训练在这个方面做得相当到位没有AI会试图在做任务的过程中顺手给自己升级权限。然而边界合规这一项出现了53分的巨大落差。两个Claude模型的边界合规得分在83到85之间表现最好Gemini只有31.6分Qwen3.5只有34.4分表现最差。Gemini在这项测试里积累了217次高严重级别的违规Qwen3.5则有146次主要表现都是访问了被划定工作目录之外的文件和路径。Gemini的安全问题和它的行为风格有直接关联。因为它倾向于大量执行命令当某次执行失败后它会尝试往更广的范围里寻找资源结果一不小心就越过了工作目录的边界。大量无约束的shell执行为这种越界行为创造了条件。一个值得关注的发现是安全得分和任务得分之间几乎没有相关性相关系数绝对值小于0.29大多数模型的p值也没能达到统计显著性。这意味着安全和能力并不是鱼和熊掌的关系——一个AI可以同时做到安全且能干也可以同时做到危险且低效两者没有必然的取舍关系。---十、不同AI之间能力有多相似研究团队还计算了六个模型在80道题上得分的两两相关系数发现了一个有意思的结构。相关性最高的一对是Qwen3.5和MiniMax相关系数达到0.729。这两个模型在哪道题上得高分、在哪道题上得低分有高度一致的规律。研究团队推测这可能反映了两者在训练数据或者微调策略上的相似性。相关性最低的一对是GPT-5.4和Gemini相关系数只有0.275意味着这两个模型在很多题目上的表现走向相反——Gemini做得好的GPT-5.4未必能做好反之亦然。用统计检验确认这两对之间的差异是否真实可靠结果是显著的p值约为6.5×10??两对模型的置信区间完全不重叠。这说明六个前沿模型并不是在同一条能力轴上排成一列而是占据着截然不同的能力版图彼此的长处和短处互有交叉但并不重合。---说到底这项研究揭示了什么归根结底这项研究告诉我们AI在好用和好用得了难题之间还存在相当大的鸿沟。当前最强的模型在这套来自真实学生作业的测试里及格率只有55%而且在竞赛级别的推理题目面前集体失守——这不是某一个模型的问题而是当前这一代AI技术的共同局限。更值得思考的是多用token并不等于多出结果。AI在知道什么时候该停下来、什么时候该调整策略这件事上仍然欠缺可靠的判断力。大量的计算资源投入最终换不来对应的成绩提升这提示了一个方向未来AI的改进或许不在于让它想得更多而在于让它想得更准。对于普通用户来说这意味着把AI用于日常辅助是没问题的但如果你遇到了真正需要深厚专业积累的难题现阶段的AI很可能没法替代领域专家。对于AI研究者来说这套测试提供的不只是分数还有精确的诊断信息——哪类任务是整体性盲区哪个模型在哪种情况下有特异性弱点都一目了然。有兴趣深入了解这项研究的读者可以通过arXiv编号2605.02661查阅完整论文代码和数据也已经在GitHub上开放地址是GAIR-NLP/AcademiClaw。---QAQ1AcademiClaw和其他AI测试基准相比最大的不同是什么AAcademiClaw的题目全部来自真实学生的学业困境而不是研究者凭空设计的场景。每道题都经过学生本人用真实AI工具验证确实难以解决。此外它是目前唯一包含GPU计算任务的OpenClaw生态测试基准也是唯一对AI行为进行五类安全审计的测试。Q2为什么AI用了更多的token成绩反而没有变好A研究发现当前AI缺乏判断何时停止的能力常常在已经找到答案或陷入死胡同之后继续无效地消耗资源。成绩好坏取决于推理的质量和策略而不是计算量的多少。Gemini消耗token是GPT-5.4的五倍多但得分反而更低就是典型案例。Q3AcademiClaw测试结果对普通学生使用AI有什么实际参考意义A这项测试说明用AI完成日常作业整理资料、写报告草稿通常没问题但遇到奥数证明题、GPU程序调试、跨框架代码迁移等需要深度专业积累的任务当前AI仍然有明显短板及格率只有55%。遇到这类问题时不应完全依赖AI最好结合领域专业知识或人工检验。