Meta:智能体可靠评估范式PRISM
标题Computer Use at the Edge of the Statistical Precipice来源arXiv, 2605.08261v1️文章简介研究问题现有的计算机使用智能体CUA基准测试为何因环境设计缺陷和统计方法不当而导致评估结果不可靠且易被欺骗主要贡献论文提出了 PRISM 环境设计原则与 DigiWorld 基准并开发了分层聚合统计框架彻底解决了静态环境易被记忆回放及传统统计指标失效的问题。重点思路揭示静态基准的致命缺陷证明在确定性静态环境中仅重放成功动作序列的微小脚本智能体其成功率等同于源模型的 passk 值表明现有评测测的是记忆能力而非推理能力。提出 PRISM 设计原则定义特权验证、真实环境、完整性检查配置、沙箱执行和多因素可变性五大原则确保环境防作弊且具备生态效度。构建 DigiWorld 基准实例化 PRISM 原则创建包含 15 个真实沙箱移动应用的基准通过组合数据、主题和 UI 状态生成超 320 万种经自动完整性验证的独特配置。开发分层评估框架摒弃简单的点估计采用威尔逊得分区间处理二值结果并结合分层自举法Hierarchical Bootstrap计算置信区间以正确反映基准测试的嵌套数据结构。分析总结实验显示重放智能体在 OSWorld 等静态基准上表现优于前沿模型但在 DigiWorld 的多变配置下成功率骤降至近零证实了多因素可变性能有效阻断记忆攻击。仿真研究表明传统的 Wald 区间在极端成功率下覆盖率极低而威尔逊区间能保持标称覆盖率忽略数据嵌套结构的简单自举法会导致置信区间严重低估不确定性。应用新框架评估前沿模型发现传统统计方法会错误地判定某些应用上的模型差异显著而分层自举法能正确识别这些不确定性从而降低部署错误模型的预期遗憾。可变性分解分析表明数据内容、视觉主题和初始 UI 状态等多个维度均会对智能体性能产生显著影响单一维度的变化不足以全面评估智能体的鲁棒性。个人观点论文指出了当前 CUA 评估中“环境静态化”和“统计 naive 化”两大核心痛点强调了在复杂交互任务中评估的严谨性必须建立在环境的高熵变异。