论GUI接地模型对图像攻击的鲁棒性原文链接On the Robustness of GUI Grounding Models Against Image Attacks摘要图形用户界面接地模型对于使智能体能够理解和与复杂视觉界面交互至关重要。然而这些模型在现实场景中由于自然噪声和对抗性扰动面临着显著的鲁棒性挑战且其鲁棒性仍未得到充分探索。在本研究中我们系统地评估了最先进的GUI接地模型如UGround在三种条件下的鲁棒性自然噪声、非目标对抗性攻击和目标对抗性攻击。我们的实验在广泛的GUI环境中进行包括移动端、桌面端和网页界面清楚地表明GUI接地模型对对抗性扰动和低分辨率条件表现出高度的敏感性。这些发现为GUI接地模型的脆弱性提供了宝贵的见解并为未来旨在提高其在实际应用中鲁棒性的研究建立了一个强有力的基准。我们的代码可在 https://github.com/ZZZhr-1/Robust_GUI_Grounding 获取。1 引言图形用户界面智能体旨在根据用户指令自动化操作提高人机交互效率并改善整体用户体验[38]。最近多模态大语言模型在视觉接地能力方面取得了显著进展为GUI智能体系统的开发开辟了新途径[1,33]。通过在GUI接地任务上微调MLLM这些模型在利用视觉信息和自然语言指令在复杂GUI中准确定位目标元素方面展现出了令人印象深刻的性能[6,16,39]。尽管具有潜力GUI接地模型在开放和真实世界环境中面临着显著的鲁棒性挑战[37]。对输入变化的敏感性可能导致在恶意或异常条件下产生错误响应给系统稳定性和安全性带来风险[5,7]。由设备差异如不同的操作系统或屏幕分辨率引起的视觉不一致性可能进一步导致接地错误。此外对手可以利用精心制作的扰动来误导模型可能将智能体导向恶意链接或网站[43]。尽管近年来在多模态模型鲁棒性方面取得了一些进展但大多数研究集中在视觉问答和图像描述等任务上[11,12,45]而对视觉接地任务的研究相对较少[13]。此外GUI接地具有独特的场景特征如非自然图像、多样的界面元素布局、图标类型的复杂性以及小物体检测。这些独特特征为确保GUI接地鲁棒性带来了额外的挑战。因此深入研究GUI接地模型在复杂环境中的鲁棒性对于提高其在现实应用中的稳定性和安全性至关重要。在本工作中我们研究了最新的GUI接地模型在各种攻击场景下的鲁棒性重点关注三个方面(i) 自然噪声下的鲁棒性例如分辨率变化和图像模糊(ii) 对图像编码器的非目标攻击其中对抗性扰动破坏特征输出导致错误的接地结果以及(iii) 白盒目标攻击其中扰动引导模型点击一个指定的0.04 % 0.04\%0.04%目标区域该区域比大多数图标和文本都小确保了攻击的显著性。我们在不同环境如移动端、桌面端、网页中对GUI接地模型的广泛评估为未来的研究和实际应用提供了宝贵的见解。图1展示了我们的攻击方法和一些攻击结果的示例。我们的主要贡献可以总结如下我们系统地分析了GUI接地模型在各种扰动条件下的鲁棒性。我们通过实验验证了GUI接地模型在涉及自然噪声、非目标攻击和目标攻击的场景中的性能。我们建立了一个必要且可靠的实验基准以推进未来在GUI接地鲁棒性方面的研究和应用。图1. 自然噪声颜色抖动、非目标攻击和目标攻击的示例在Uground-V1模型上的结果。2 相关工作2.1 GUI智能体与GUI接地模型在GUI智能体领域大语言模型和多模态大语言模型已展现出显著潜力[20,32,40]。许多多模态智能体依赖HTML或可访问性树进行接地[17,21,46]但缺乏通用性。相比之下一些研究探索了像素级、视觉接地型的GUI智能体[18,29,44]。由于GUI与自然场景之间存在显著差异传统的视觉接地方法在GUI环境中往往表现不佳[6]。Set-of-MarkSoM方法[41]引入视觉标记如框和数字来引导模型识别目标对象。然而它严重依赖于完整的对象信息或分割[21,22,46]。SeeClick模型[6]在GUI数据上对Qwen-VL [2]进行微调建立了新的接地基准。SeeAct [16]提出了一种两阶段方法将规划与视觉接地分离在基准测试中表现出强劲性能。OS-Atlas [39]开发了一个多平台数据收集框架并为GUI智能体设计了一个专用的大动作模型。尽管取得了这些进展在现实应用中部署大语言模型智能体的安全性问题仍然是一个悬而未决的问题[24,25,28,36]。2.2 MLLM的鲁棒性机器学习模型容易受到对抗性示例的影响输入的小扰动可能导致错误的预测[3,10,15,30,34,42]。已有大量研究致力于改进对抗性攻击和防御[4,8,23,27]。早期研究主要集中在图像分类器上后来的研究将对抗性攻击扩展到大型语言模型[19,31]以及对多模态大语言模型的对抗性攻击[11,14,35]。最近的研究探索了视觉问答[12]和图像描述[9,45]等应用场景中的对抗鲁棒性。然而具有视觉接地能力的多模态大语言模型的对抗鲁棒性尚未得到充分探索[13]尤其是在GUI领域。为此我们设计了多种攻击方法来评估GUI接地模型的鲁棒性。3 方法3.1 预备知识GUI接地模型从截图s ss和描述x xx中预测元素的位置y yy边界框或坐标点。数字直接作为token处理MLLM使用标准的自回归损失进行训练。如果预测的位置y yy落在对应元素的真实边界框内则认为接地成功。威胁模型。对于自然噪声模型面临来自不同操作系统、主题、分辨率和渲染器等各种因素的威胁这些因素会引入边界模糊、颜色变化等。这些噪声是基于预定义分布注入的而不是对抗性构建的。具体来说我们评估模型对不同噪声类型的敏感性以诱导错误的输出。对于非目标攻击和目标攻击对手旨在优化一个不可察觉的扰动以构建用于攻击目的的对抗性图像x ′ xx′。遵循先前的工作[11,13,26]我们假设攻击者3.2 自然噪声下的鲁棒性在GUI接地任务中可以通过引入真实世界的干扰来评估模型在自然噪声下的鲁棒性。给定一个界面截图s ss和一个元素描述x xx我们对s ss应用一个噪声变换T ( ⋅ ) T(\cdot)T(⋅)得到变换后的输入s ′ T ( s ) s T(s)s′T(s)。将GUI接地模型定义为M ( s , x ) → y ^ \mathcal{M}(s,x) \to \hat{y}M(s,x)→y^​其中y ^ \hat{y}y^​表示预测的元素位置归一化坐标或边界框。如果预测位置落在真实边界框的范围内则认为预测正确接地。那么模型的鲁棒性通过接地成功率来衡量S R E ( s , x , y ) ∼ D [ 1 [ y ^ ′ ∈ B ( y ) ] ] , ( 1 ) SR \mathbb{E}_{(s,x,y)\sim \mathcal{D}}\left[\mathbb{1}[\hat{y}\in B(y)]\right], \quad (1)SRE(s,x,y)∼D​[1[y^​′∈B(y)]],(1)其中y ^ ′ \hat{y}y^​′是变换后输入s ′ ss′的预测位置即y ^ ′ M ( s ′ , x ) \hat{y} M(s,x)y^​′M(s′,x)B ( y ) B(y)B(y)表示元素的真实边界框I \mathbb{I}I是指示函数。3.3 非目标对抗性攻击多模态语言模型通常使用视觉编码器f ( ⋅ ) f(\cdot)f(⋅)提取图像嵌入然后与文本嵌入结合并馈入大语言模型。当攻击者能够访问模型的视觉编码器时可以通过最大化原始图像s ss与对抗性图像s ^ s δ \hat{s} s \deltas^sδ之间图像嵌入的l 2 l_2l2​距离来进行非目标攻击。特别地对抗样本通过优化以下目标函数构建max ⁡ δ ∥ f ( s δ ) − f ( s ) ∥ 2 2 服从 ∥ δ ∥ ∞ ≤ ϵ , ( 2 ) \max_{\delta}\| f(s \delta) - f(s)\|_{2}^{2}\quad \text{服从}\quad \| \delta \|_{\infty}\leq \epsilon , \quad (2)δmax​∥f(sδ)−f(s)∥22​服从∥δ∥∞​≤ϵ,(2)其中δ \deltaδ是对抗性扰动约束∥ δ ∥ ∞ ≤ ϵ \| \delta \|_{\infty} \leq \epsilon∥δ∥∞​≤ϵ确保扰动在像素级变化上不超过ϵ \epsilonϵ。对抗样本的图像嵌入与干净样本的图像嵌入发生偏离导致模型无法做出正确预测。3.4 目标对抗性攻击在目标攻击中攻击者旨在构建对抗性扰动δ \deltaδ使得GUI接地模型M ( s δ , x ) M(s \delta ,x)M(sδ,x)输出目标位置t tt。我们假设攻击者拥有对模型的完全访问权因此可以通过最小化模型输出与目标文本之间的语言模型损失来实现攻击。优化目标函数公式化为max ⁡ δ ∑ k 1 K log ⁡ P ( t k ∣ t k , s δ , x ; θ ) 服从 ∥ δ ∥ ∞ ≤ ϵ , ( 3 ) \max_{\delta}\sum_{k 1}^{K}\log P(t_k\mid t_{ k},s \delta ,x;\theta)\quad \text{服从}\quad \| \delta \|_{\infty}\leq \epsilon , \quad (3)δmax​k1∑K​logP(tk​∣tk​,sδ,x;θ)服从∥δ∥∞​≤ϵ,(3)其中P ( t k ∣ t k , s δ , x ; θ ) P(t_k\mid t_{ k},s \delta ,x;\theta)P(tk​∣tk​,sδ,x;θ)是模型在第k kk步生成目标tokent k t_ktk​的概率θ \thetaθ表示模型参数x xx表示指令。约束∥ δ ∥ ∞ ≤ ϵ \| \delta \|_{\infty} \leq \epsilon∥δ∥∞​≤ϵ确保扰动在视觉上保持不可察觉。4 实验4.1 实验设置模型与数据集。我们将最新的GUI接地模型作为攻击目标SeeClick [6]、OS-Atlas-Base-7B [39]和UGround-V1-7B基于Qwen2-VL[16]。所有模型均选择约7B规模以平衡推理成本和质量。此外我们使用ScreenSpot-V2 [6,39]数据集进行评估该数据集包含来自移动端、桌面端和网页环境的样本涵盖文本和图标目标。基线与设置。首先为了模拟真实世界的UI扰动并评估模型的鲁棒性我们排除了光照变化、透视变换和随机旋转等噪声因为GUI不受传感器或变形的影响。具体来说我们引入了高斯噪声、高斯模糊、颜色抖动和对比度调整并在不同最大像素值约束下评估输入以更好地评估模型的适应性。其次对于对抗性攻击我们采用100步的PGD算法[23]。遵循先前工作[11,13,26]我们使用l ∞ l_{\infty}l∞​约束扰动预算为ϵ 16 \epsilon 16ϵ16步长为α 1 \alpha 1α1。在非目标攻击中仅可访问视觉编码器而目标攻击假设对模型有完全访问权。目标区域为图像左上角的0.04 % 0.04\%0.04%区域不失一般性。由于OS-Atlas-Base-7B模型输出边界框而非精确坐标其目标y yy被定义为一个边界框。我们在高分辨率和低分辨率条件下评估模型。评估指标。为了评估模型对自然噪声的鲁棒性我们使用成功率作为评估指标。如果预测的坐标中心点或边界框落在真实边界框内则认为预测成功。SR越高表示鲁棒性越好。对于非目标攻击我们使用攻击成功率它衡量模型在被攻击后SR下降的比例。对于目标攻击ASR定义为预测落在目标区域内的成功率。ASR越高表示攻击越有效。4.2 主要结果图2a显示了OS-Atlas-Base-7B和UGround-V1在不同像素值下的平均性能。随着最大像素值的降低两个模型都出现性能下降OS-Atlas-Base-7B和UGround-V1在256 × 784 256\times 784256×784像素等同于SeeClick时的得分分别为44.85 % 44.85\%44.85%和表1. 三种模型在高分辨率和低分辨率下对ScreenSpot-v2的非目标攻击成功率分辨率模型设置移动端桌面端网页端平均文本图标/控件文本图标/控件高OS-Atlas-Base-7B无攻击94.1472.9992.7866.43非目标36.2759.7562.7774.20Uground-V1无攻击96.2183.8994.8575.71非目标22.5844.0745.6666.04低SeeClick无攻击78.6248.8273.2029.29非目标64.0376.7186.6373.16OS-Atlas-Base-7B无攻击72.4141.2348.4526.43非目标39.5260.9367.0262.16Uground-V1无攻击94.4870.1485.0555.00非目标55.8458.7873.3383.11表2. 三种模型在高分辨率和低分辨率下对ScreenSpot-v2的目标攻击成功率分辨率模型移动端桌面端网页端平均文本图标/控件文本图标/控件高OS-Atlas-Base-7B0.000.470.000.71Uground-V12.077.5813.9225.71低SecClick35.5253.5590.2095.71OS-Atlas-Base-7B2.074.272.067.14Uground-V15.5215.1730.4138.57图2. 模型在不同分辨率和自然噪声下的平均性能。70.20 % 70.20\%70.20%。UGround-V1表现出更好的低分辨率鲁棒性。图2b显示了模型在四种自然噪声下的性能其中OS-Atlas-Base-7B在高斯模糊下下降最大5.27 % 5.27\%5.27%。表1总结了三种模型在高分辨率和低分辨率下不同场景中的非目标攻击成功率。结果表明与高分辨率条件相比低分辨率条件下攻击成功率显著增加。每种模型的最高攻击成功率以粗体突出显示。模型在移动端场景中表现出最大的鲁棒性这可能是由于移动环境具有更简单的界面和流线型设计。表2报告了三种模型在高分辨率和低分辨率下不同场景中的目标攻击成功率。在低分辨率下基于Qwen-VL的SeeClick的攻击成功率显著高于基于Qwen2-VL的其他模型。OS-Atlas-Base-7B模型的目标攻击成功率最低为3.66 % 3.66\%3.66%这可能是因为针对边界框的攻击更具挑战性。在高分辨率条件下OS-Atlas-Base-7B和UGround-V1模型的目标攻击成功率相对较低。值得注意的是桌面环境中的图标任务实现了最高的攻击成功率。5 结论在本文中我们研究了GUI接地模型在自然噪声、非目标对抗性攻击和目标对抗性攻击下的鲁棒性。通过在移动端、桌面端和网页环境中进行大量实验我们发现尽管这些模型对自然噪声表现出一定的弹性但它们对低分辨率输入和精心制作的对抗性扰动明显脆弱。我们希望我们的发现能够作为评估GUI接地模型鲁棒性的基准并激发未来研究开发更可靠、更鲁棒的GUI接地技术。