这项由浙江大学与蚂蚁集团联合开展的研究发表于2026年4月论文编号为arXiv:2604.14113题为UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding。感兴趣的读者可通过该编号在arXiv平台检索完整论文。每天我们都在电脑屏幕上点击各种各样的小图标——那个小得像芝麻粒一样的关闭按钮、密密麻麻挤在一起的工具栏选项、藏在角落里的设置齿轮。对人类来说眼睛没看清楚的时候我们会本能地凑近屏幕或者把屏幕放大再看。但对于那些被训练来自动操作电脑界面的AI来说这个没看清就放大的本能却长期是一个没有被认真解决的问题。浙江大学和蚂蚁集团的研究团队注意到了这个盲区。他们开发了一套名为UI-Zoomer的框架专门解决AI在执行图形界面定位任务简单说就是看图找按钮时遇到的难题。这套框架的核心思路异常朴素只有在AI自己也没把握的时候才去放大图像仔细再看而且放大多少也要根据AI的不确定程度来动态决定而非一刀切。这个研究不需要重新训练AI模型可以直接套用在已有的模型上在多个测试基准中带来了最高13.4%的准确率提升。一、AI操控电脑为何小图标是一道难关要理解这项研究先得弄清楚一件事什么叫做图形界面定位以及它为什么难。现代AI助手越来越多地被要求直接操作电脑比如帮用户打开某个设置、点击某个按钮、在复杂的软件界面里找到一个特定的功能选项。这类任务的本质就是AI拿到一张电脑截图和一句描述比如点击拼写检查按钮然后输出一个坐标告诉执行程序该点哪里。听起来不复杂但现实中的屏幕往往令人抓狂。4K分辨率的专业设计软件界面上一个图标可能只占整张截图面积的千分之一CAD制图软件、科学数据分析工具的工具栏里几十个相似的小图标挤在一起差一个像素就点错了。AI模型在处理这类截图时面临的困境类似于你站在十米外看一张密密麻麻的菜单要说清楚第三行第七个字是什么——眼神再好也有极限。现有的解决思路里有一类叫做测试时放大的方法思路就是把截图裁一块出来放大后重新让AI看提高有效分辨率。这个方向确实有效但已有的方法有两个共同的硬伤。第一个硬伤是不管三七二十一统统放大。有的方法对每一张截图都做一遍放大再推理不管AI对这张图本来有没有把握。研究团队做了一个直观的实验在ScreenSpot-v2这个测试集上加了无差别放大操作之后准确率从81.84%反而跌到了77.20%推理时间却从35分47秒暴涨到6小时43分钟。原因很直白——那些AI本来就能看清楚的简单情况被强制放大之后反而失去了整体布局信息越看越糊涂。第二个硬伤是放大多少凭感觉拍脑袋。无论哪种方法裁切窗口的大小都是事先固定的比例比如统一裁截图面积的30%或50%完全不管当前这张图里AI的预测是聚在一起还是散得到处都是。裁太大分辨率没提升多少裁太小又可能把关键上下文信息切掉。UI-Zoomer的目标就是同时解决这两个硬伤。二、核心思路用AI自己的犹豫程度来决定要不要放大、放大多少UI-Zoomer的整体逻辑可以用一个日常场景来理解。假设你是个经验丰富的医生在读X光片大多数片子一眼就能给出诊断但遇到某张片子你反复看了几次每次看感觉焦点都不在同一个地方而且你自己也不太确定——这时候你才会说把这个区域放大打印一下。更重要的是你会根据自己犹豫的范围来决定放大哪一块如果几次观察都觉得问题在同一个小区域附近就放大那一小块如果每次感觉问题区域都不一样分散在好几处就把那几处都囊括进来放大。UI-Zoomer对AI做的正是这同一件事。整个流程分三个阶段。第一阶段叫做多次随机采样。研究团队让AI对同一张截图和同一个指令在稍微放松的状态下用技术语言说叫温度0.9的随机采样独立回答8次每次都给出一个预测的边界框即AI认为目标按钮在哪里的矩形区域。这8个答案不是完全相同的因为加了随机性之后AI每次思考时会有轻微的波动。你可以把这8次回答理解成让8个医生独立看同一张X光片分别写下自己的判断。第二阶段叫做可靠性门控。拿到8个预测之后需要判断AI到底有没有把握。研究团队用了两种互补的信号来衡量这件事。一种叫空间一致性就是看这8个预测框互相之间的重叠程度——如果8个框都堆在一起说明AI每次都指向同一个地方非常一致显然是有把握的如果8个框散落在截图的不同角落说明AI自己也拿不定主意。另一种叫平均置信度就是看AI在生成每个坐标数字时对自己输出的每个字符有多确定——这个可以从模型内部的概率分数直接读取。把这两个信号加在一起得到一个综合的可靠性分数。如果可靠性分数超过了一个预设阈值说明AI是有把握的直接用投票方法选出最佳答案就好从8个预测里选出和其他预测框重叠最多的那个作为最终答案。这个过程完全不需要再额外推理一次既省时间又不损失精度。如果可靠性分数没过阈值说明AI在这个问题上真的不确定这才进入第三阶段。第三阶段叫做不确定性驱动的自适应裁切。这是UI-Zoomer最精妙的部分——裁切窗口的大小完全由AI预测的分散程度来决定。研究团队在这里用了一个统计学上的工具叫做全方差分解。通俗地说他们把AI预测的总体不确定性分成了两部分一部分来自8次预测的中心点散布有多广另一部分来自每个预测框本身有多大。前者反映的是AI对目标位置本身的困惑——不同预测指向不同的位置后者反映的是AI认为目标元素本身可能有多大——即使每次都指向同一个地方如果预测框本身很大也说明目标元素可能相当宽泛。把这两部分加起来就得到了总体的不确定性范围裁切半径就等于这个范围乘以一个缩放系数。具体操作时还有一些工程细节。为了防止少数几个极度离谱的预测把整体方差拉得过大系统会先过滤掉距离中位数最远的25%的预测只用最靠近中心的75%来估算裁切范围。裁切框统一变成正方形因为长条形的裁切区域容易让AI误解空间布局。如果算出来的裁切框超出了图像边界就把整个框平移进来保持大小不变而不是把框缩小或截断——因为保持大小才能保证分辨率的提升效果。裁切出来的区域被放大到模型的标准输入尺寸后AI再做一次确定性推理温度设为0得到精细化的定位结果。最后这个在裁切区域内的坐标还要经过一步换算映射回原始截图的全局坐标才是最终的点击位置。三、实验结果在不同难度的考场上检验成绩为了验证UI-Zoomer的有效性研究团队在三个不同的测试基准上进行了评估每个基准代表不同的难度和应用场景。ScreenSpot-Pro是最难的一个专门针对4K分辨率的专业桌面软件涵盖开发工具、创意设计软件、CAD制图、科学计算、Office办公和操作系统六类应用共23款软件目标元素普遍非常小且密集。UI-Vision覆盖83个真实世界的桌面应用包含基础元素定位、功能性操作和空间布局三类任务。ScreenSpot-v2则是一个多平台基准包含移动端、桌面端和网页端整体难度相对较低面向标准分辨率界面。研究团队在四个基础模型上分别测试了UI-Zoomer的效果通用视觉语言模型Qwen2.5-VL-7B以及专门针对GUI任务优化过的GUI-G2-7B、UI-Venus-7B和UI-Venus-72B。后三个模型都通过强化学习进行了专项训练本身就具备较强的图形界面理解能力。在ScreenSpot-Pro上四个模型加上UI-Zoomer之后准确率提升幅度相当显著。Qwen2.5-VL-7B从27.6%跃升到41.0%提升了13.4个百分点。GUI-G2-7B从48.7%提升到61.4%提升了12.7个百分点。UI-Venus-7B从50.0%提升到61.8%提升了11.8个百分点。最大体量的UI-Venus-72B从59.2%提升到67.8%提升了8.6个百分点。在UI-Vision上UI-Venus-7B的平均准确率从24.4%提升到33.7%提升幅度达到9.3个百分点Qwen2.5-VL-7B的提升则高达10.3个百分点。在相对容易的ScreenSpot-v2上提升幅度较小但依然稳定UI-Venus-7B提升了0.9个百分点Qwen2.5-VL-7B提升了4.2个百分点。这个规律本身就很有意思越难的测试场景UI-Zoomer带来的提升越大。这完全符合预期——高分辨率的专业软件界面上小图标的定位问题最突出放大操作带来的收益也最明显。反过来在相对简单的移动端界面上AI本来就能看清楚大多数元素放大操作的必要性就低得多。值得关注的还有一个细节在图标类目标上UI-Zoomer带来的提升平均12.5个百分点始终高于文字类目标平均11.1个百分点。这也符合直觉——纯文字的按钮包含语义信息AI即使在低分辨率下也能通过文字内容推断而图标完全依赖视觉细节分辨率不足时就真的看不出是什么了放大之后收益自然更大。与同类方法的横向比较同样值得审视。之前的DiMo-GUI方法对每个样本无差别地进行放大推理在ScreenSpot-Pro上只达到了49.7%RegionFocus触发机制依赖执行错误反馈只达到32.1%。UI-Zoomer的UI-Venus-7B版本达到61.8%明显优于这两者。与暴力多次采样取最优的pass8方法58.2%相比UI-Zoomer以相近的推理预算达到了更高的准确率说明关键不只是多采样而是怎么用好采样结果。四、每个设计细节背后的道理拆解消融实验研究团队做了大量的消融实验验证每一个设计选择的必要性。这些实验的结论进一步解释了为什么UI-Zoomer要这样设计而不是那样设计。关于可靠性门控的两个信号单独使用空间一致性时准确率是60.81%单独使用平均置信度时是61.10%两者结合后是61.80%。数字差异不大但统计意义上两者的互补性从分布形态上就能看出来空间一致性的分布很分散能区分预测框到底聚不聚的情况平均置信度的分布比较集中能区分模型对坐标数字有没有把握的情况。两个信号各有侧重组合后比任何一个单独用都更可靠。关于方差分解只用来自框内尺寸的内部方差时准确率60.97%只用来自预测框中心点散布的跨样本方差时是61.42%两者合用是61.80%。这个结果验证了把不确定性分成两个来源的合理性目标本身有多大内部方差和AI在哪里有分歧跨样本方差是两件不同的事缺少任何一个都会导致裁切区域的估算出现偏差。关于裁切策略固定80%比例裁切准确率只有55.22%固定50%是59.58%固定30%是61.35%而自适应方法是61.80%。固定比例方法的尴尬在于比例太大放大效果有限比例太小上下文信息丢失。更糟的是同一个固定比例对不同难度的图片表现差异极大而自适应方法能根据当前情况动态调整从根本上规避了这个两难困境。关于边界处理当裁切窗口延伸到图像边界外时三种处理方式的效果分别是缩小窗口58.47%硬截断60.25%平移窗口61.80%。平移方法之所以最好是因为它保持了裁切窗口的实际大小不变意味着放大后的分辨率始终是预期水平缩小和截断都会减少看到的内容可能恰好把目标元素边缘切掉。关于保留候选比例保留全部预测100%时准确率60.03%保留最近的50%时是60.37%保留最近的75%时是61.80%。这说明少量极端离谱的预测确实会把整体方差估算拉偏但过度过滤又会损失有效信息75%是一个经过验证的平衡点。关于是否强制方形裁切非方形时60.56%强制方形后61.80%提升了1.24个百分点。强制方形减少了长条形裁切框对模型空间理解的干扰这在界面元素宽高比变化很大的情况下尤其重要。关于采样温度从0.1到0.9准确率持续上升从54.46%上升到61.80%在1.0时略有回落。这表明多样性对于估算裁切区域至关重要——温度太低时8个预测几乎完全相同等于没有采样方差估算毫无意义温度太高则引入纯随机噪声。0.9是最佳点。关于候选数量从2到8个准确率持续上升在8个时达到61.80%之后在12和16个时略有下降。超过8个之后额外的预测开始引入冗余甚至噪声反而稍微拖累了方差估算的质量。五、它什么时候管用什么时候还是会栽跟头研究团队展示的案例分析给出了对UI-Zoomer边界的直观理解。在成功案例中典型情形是AI的8次初始预测虽然散落在一定范围内没有一个精确命中但整体分布合理地包围了目标区域。UI-Zoomer据此圈定了一个合适的裁切范围放大之后AI一眼就锁定了目标。这说明即使初始预测不够精准只要集体犯错的方向是正确的放大这个方向就能成功。在失败案例中有两类典型情形。一类是界面上存在多个外观几乎相同的图标而目标是其中一个AI每次预测可能都指向不同的相似图标裁切范围虽然覆盖了某个区域但放大后依然无法区分。另一类是目标极小且视觉特征非常微弱即使放大之后模型也没有足够的线索做出正确判断。这两类失败揭示了UI-Zoomer的根本局限它能改善分辨率但无法凭空增加视觉区分度当目标本身与周围环境在视觉上高度相似时放大也无济于事。关于门控阈值的调节实验结果呈现出一条清晰的规律阈值太低几乎没有样本被送去放大等于退化成基线方法阈值太高几乎所有样本都被放大等于无差别放大准确率反而下降推理时间也接近翻倍。最优的阈值范围在中间让大约20%到55%的样本接受放大处理。此外桌面和网页界面从放大操作中获益更多移动端界面元素相对较大且布局更规整放大的必要性更低。说到底UI-Zoomer做的事情听起来非常简单却填补了一个长期存在的空白让AI知道自己什么时候在猜并在猜测的时候采取有针对性的措施而不是要么完全不管要么对所有情况统统加码处理。这对普通人的意义在不远的将来会越来越具体。当AI助手被要求帮你操作电脑、填写表格、在复杂软件里找到某个隐藏功能时它们面临的正是这类小图标、密排版的难题。UI-Zoomer这套框架不需要重新训练模型可以作为一个外挂直接套在已有的AI模型上带来实质性的准确率提升同时通过门控机制避免了不必要的计算开销。当然当界面上存在大量视觉相似的小图标时单纯提高分辨率并不足够AI还需要更深层的语义理解能力——这是这项研究坦然承认的局限也是未来工作需要继续推进的方向。有兴趣进一步了解技术细节的读者可以在arXiv平台上以编号2604.14113检索原始论文。QAQ1UI-Zoomer是否需要重新训练AI模型才能使用A不需要。UI-Zoomer是一个无需训练的框架可以直接套用在已有的AI模型上使用不改变模型本身的参数。它的工作方式是在推理阶段对AI的输出进行分析决定是否需要裁切放大属于测试时的增强手段。Q2UI-Zoomer的门控机制是如何判断AI没把握的A门控机制结合了两个信号。第一个是空间一致性即让AI对同一张截图采样8次看8次预测框的重叠程度是否高——重叠少说明AI每次都指向不同位置表明不确定。第二个是平均置信度直接读取AI生成坐标时对每个数字的内部概率分数。两个信号加总后与阈值比较低于阈值才触发放大流程。Q3为什么无差别地对所有图片都放大反而会让准确率下降A因为对于AI本来就能看清楚的简单界面强制裁切放大会去掉原本对AI有帮助的整体布局信息。AI在看完整截图时能利用上下文来推断按钮位置裁切之后上下文丢失反而增加了判断难度。实验数据显示无差别放大让ScreenSpot-v2上的准确率从81.84%下降到77.20%推理时间却增加了近11倍。