Meta：智能体可靠评估范式PRISM

张

张建站

2026/5/21 10:06:37

10分钟阅读

标题Computer Use at the Edge of the Statistical Precipice来源arXiv, 2605.08261v1️文章简介研究问题现有的计算机使用智能体CUA基准测试为何因环境设计缺陷和统计方法不当而导致评估结果不可靠且易被欺骗主要贡献论文提出了 PRISM 环境设计原则与 DigiWorld 基准并开发了分层聚合统计框架彻底解决了静态环境易被记忆回放及传统统计指标失效的问题。重点思路揭示静态基准的致命缺陷证明在确定性静态环境中仅重放成功动作序列的微小脚本智能体其成功率等同于源模型的 passk 值表明现有评测测的是记忆能力而非推理能力。提出 PRISM 设计原则定义特权验证、真实环境、完整性检查配置、沙箱执行和多因素可变性五大原则确保环境防作弊且具备生态效度。构建 DigiWorld 基准实例化 PRISM 原则创建包含 15 个真实沙箱移动应用的基准通过组合数据、主题和 UI 状态生成超 320 万种经自动完整性验证的独特配置。开发分层评估框架摒弃简单的点估计采用威尔逊得分区间处理二值结果并结合分层自举法Hierarchical Bootstrap计算置信区间以正确反映基准测试的嵌套数据结构。分析总结实验显示重放智能体在 OSWorld 等静态基准上表现优于前沿模型但在 DigiWorld 的多变配置下成功率骤降至近零证实了多因素可变性能有效阻断记忆攻击。仿真研究表明传统的 Wald 区间在极端成功率下覆盖率极低而威尔逊区间能保持标称覆盖率忽略数据嵌套结构的简单自举法会导致置信区间严重低估不确定性。应用新框架评估前沿模型发现传统统计方法会错误地判定某些应用上的模型差异显著而分层自举法能正确识别这些不确定性从而降低部署错误模型的预期遗憾。可变性分解分析表明数据内容、视觉主题和初始 UI 状态等多个维度均会对智能体性能产生显著影响单一维度的变化不足以全面评估智能体的鲁棒性。个人观点论文指出了当前 CUA 评估中“环境静态化”和“统计 naive 化”两大核心痛点强调了在复杂交互任务中评估的严谨性必须建立在环境的高熵变异。

LDDC歌词神器：如何快速获取精准歌词并实现格式转换的完整指南

LDDC歌词神器：如何快速获取精准歌词并实现格式转换的完整指南【免费下载链接】LDDC 简单易用的精准歌词(逐字歌词/卡拉OK歌词)下载匹配工具|A simple and user-friendly tool for downloading and matching precise lyrics (word-by-word lyrics/Karaoke lyrics) …...

2026/5/21 10:06:18 阅读更多 →

如何快速掌握三维地质建模：GemPy完整实战指南

如何快速掌握三维地质建模：GemPy完整实战指南【免费下载链接】gempy GemPy is an open-source, Python-based 3-D structural geological modeling software, which allows the implicit (i.e. automatic) creation of complex geological models from interface a…...

2026/5/21 10:05:20 阅读更多 →

网盘直链下载助手终极指南：8大平台高速下载完全免费

网盘直链下载助手终极指南：8大平台高速下载完全免费【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云…...

2026/5/21 10:05:17 阅读更多 →