WebUncertainty框架：用不确定性建模提升AI智能体在动态网页任务中的鲁棒性

张

张建站

2026/6/1 6:09:05

10分钟阅读

WebUncertainty框架：用不确定性建模提升AI智能体在动态网页任务中的鲁棒性

1. 项目概述当Web智能体遇上“不确定”的挑战如果你尝试过让大语言模型LLM驱动的智能体去完成一个稍微复杂点的网页任务比如在电商网站上筛选特定年份的书籍并按评分排序或者在GitLab上完成一个包含多个步骤的代码合并请求你大概率会感到沮丧。智能体要么会卡在一个不存在的页面元素上要么会执行一系列看似合理但最终偏离目标的动作甚至可能陷入一个死循环。这背后的核心问题远不止是模型“不够聪明”而是智能体在面对动态、未知的网页环境时缺乏对自身决策“不确定程度”的感知与应对能力。这就是“不确定性建模”在AI智能体领域尤其是Web自动化场景下变得至关重要的原因。简单来说不确定性建模就是让智能体学会“自知之明”——它能量化自己对当前决策有多大把握并区分这种不确定性的来源是因为自己对当前网页结构一无所知认知不确定性还是因为页面上确实存在多个合理的下一步选项偶然不确定性。传统的Web智能体无论是基于一次性显式规划还是完全反应式的隐式规划都像是一个蒙着眼睛在迷宫里横冲直撞的人撞墙了才知道此路不通效率低下且容易失败。我最近深入研究了合肥工业大学团队提出的WebUncertainty框架它正是为了解决上述痛点而生。这个框架的核心思想非常清晰将智能体的决策过程拆分为“规划”和“推理”两个层次并分别针对这两个层次的不确定性进行建模和优化。在规划层它设计了一个任务不确定性驱动的自适应规划机制能根据当前环境的不确定性高低动态切换“显式规划”和“隐式规划”模式避免了一刀切策略的弊端。在推理层它引入了一个动作不确定性驱动的蒙特卡洛树搜索MCTS推理机制通过一个名为ConActU的策略量化每个候选动作的两种不确定性从而优化搜索过程有效过滤掉“幻觉”动作引导智能体做出更可靠的决策。经过在WebArena和WebVoyager两大主流基准测试上的验证WebUncertainty在复杂任务上的成功率显著超越了现有方法。更关键的是即使使用性能稍弱的大模型作为推理后端通过其精妙的不确定性管理也能达到甚至超过更强模型搭配传统架构的表现。这不仅仅是性能的提升更代表了一种设计范式的转变从单纯依赖模型的“蛮力”转向构建具备“元认知”能力的、更稳健的智能体系统。接下来我将为你深入拆解这个框架的设计思路、核心实现细节并分享在实际复现和应用中可能遇到的坑与技巧。2. 核心设计思路双层次不确定性的解耦与应对WebUncertainty框架的巧妙之处在于它没有将智能体视为一个黑箱而是将其决策流程清晰地解构为两个阶段并精准地识别了每个阶段面临的核心不确定性挑战。这种“分而治之”的思路是它取得成功的关键。2.1 规划层的不确定性环境动态性与策略僵化的矛盾在规划阶段智能体的目标是将用户的高层指令例如“在亚马逊上找到2024年评分最高的编程书籍”分解为一系列可执行的子目标。传统方法主要有两种路径显式规划智能体在任务开始前就基于对任务和网站的“常识”或“假设”一次性生成完整的动作序列。例如它可能规划为1) 进入亚马逊书籍分类2) 在侧边栏找到“出版年份”筛选器3) 选择“2024”4) 按“评分”排序5) 点击排名第一的书籍。隐式规划智能体不进行预先分解而是根据当前页面状态实时地、反应式地决定下一个最合理的动作。它看到什么就决定做什么。这两种策略各有致命缺陷。显式规划的问题在于“刻舟求剑”。如果亚马逊的侧边栏根本没有“出版年份”这个筛选器这是完全可能发生的网站布局会变那么整个计划从第二步开始就失效了智能体会陷入找不到元素的死循环。隐式规划的问题则在于“目光短浅”。它可能一进入页面就被当前最显眼的“畅销书”吸引点了进去完全忘记了用户要求的是“评分最高”从而陷入局部最优无法完成全局任务。WebUncertainty的洞察在于规划策略的选择不应是固定的而应取决于当前任务环境对智能体而言的“不确定程度”。这个“任务不确定性”是一个介于0到1之间的标量值由框架内的“分析智能体”动态计算。它综合考量了当前网页观察、任务历史以及剩余目标。当任务不确定性低时意味着环境相对熟悉、任务目标明确。例如智能体已经成功导航到了目标商品列表页下一步“点击购买按钮”是高度确定的。此时框架会切换到显式规划模式生成后续连贯的子目标序列以确保长期任务执行的连贯性和效率。当任务不确定性高时意味着环境陌生或出现了意外情况。例如弹出了一个意料之外的登录窗口或者页面布局与训练数据差异巨大。此时继续执行僵化的显式计划无异于自杀。框架会立即切换到隐式规划模式像人类一样“走一步看一步”先解决眼前的障碍比如关闭弹窗或探索新布局待环境稳定、不确定性降低后再可能切换回显式规划。这种自适应切换使得智能体在面对动态网页时既保持了长程任务的目标感又具备了应对突发变化的灵活性。2.2 推理层的不确定性幻觉与歧义的双重陷阱规划阶段产出了一个子目标例如“点击评分排序按钮”接下来就进入推理阶段具体要执行哪个原子动作传统的基于MCTS的方法会生成多个候选动作如点击元素A、点击元素B、输入文本C并通过模拟执行来评估哪个动作更好。但这里存在一个根本问题它无法区分一个动作得分低到底是因为这个动作本身是“幻觉”模型瞎编的页面上根本没有对应元素还是因为页面确实存在多个合理的可点击元素导致选择存在固有歧义。WebUncertainty通过其ConActU置信度诱导的动作不确定性策略来量化这两种不确定性认知不确定性源于模型自身知识的缺乏。可以理解为“我不知道”。例如模型被要求在一个它从未见过的、元素ID全是动态生成的页面上找到一个按钮它只能瞎猜这时它对自己生成的任何候选动作都缺乏信心。ConActU通过计算所有候选动作的平均置信度来量化EU平均置信度越低EU越高说明模型越“心虚”幻觉风险越大。偶然不确定性源于数据或环境固有的随机性。可以理解为“我知道但选项太多我不确定选哪个”。例如页面上有三个看起来都像是“排序”的按钮可能是“按价格排序”、“按评分排序”、“按销量排序”模型能识别出它们都与排序相关但不确定用户具体想要哪个。ConActU通过计算候选动作置信度分布的归一化熵来量化AU如果所有动作置信度都很高且接近熵就低如果几个动作置信度都很高且相差不大熵就高说明歧义性大。在MCTS的模拟阶段框架会根据(EU, AU)的组合对动作结果进行不同的奖励调制高EU高AU最坏情况既无知又混乱给予严厉惩罚禁止搜索此路径。高EU低AU典型的幻觉模型很“自信”地给出了一个错误答案给予标准惩罚引导回溯。低EU高AU模型有知识但环境确实存在歧义。保留基础得分鼓励在同一节点下尝试其他候选动作探索。低EU低AU模型很自信但执行后得分低。这可能是遇到了确定性错误如网络延迟导致点击未响应。奖励设为0触发在当前节点重新生成新动作。这种精细化的不确定性区分使得MCTS搜索能更智能地分配计算资源避免在幻觉路径上浪费搜索深度同时在真正存在歧义的地方进行必要的探索。3. 核心模块实现细节与实操要点理解了宏观设计我们深入到实现层面。WebUncertainty框架的实现包含几个核心模块每个模块都有一些值得注意的设计选择和实操细节。3.1 任务不确定性分析器如何量化“不确定”分析智能体π_ana是规划层的“侦察兵”。它的输入是全局指令I、当前网页观察O_t通常是可访问性树或截图和执行历史H_t。输出是剩余任务目标T_rem和任务不确定性标量u_plan。实操要点网页观察的表示与编码网页观察O_t的质量直接决定了不确定性评估的准确性。在文本模式下通常使用页面的可访问性树它比原始HTML更简洁包含了有意义的语义信息如角色、名称、状态。一个常见的技巧是对可访问性树进行裁剪和摘要只保留当前视口附近或与历史动作相关的元素以减少输入给大模型的令牌数并聚焦于关键信息。例如可以保留以最近交互元素为中心、一定深度范围内的DOM子树。不确定性计算的心得在原始论文中u_plan是通过提示工程让大模型直接输出一个0-1之间的数值。在实际复现中我们可以设计更精细的启发式规则或小模型来辅助计算。例如页面熟悉度计算当前页面DOM结构与历史成功任务中页面的结构相似度。指令匹配度评估剩余任务目标T_rem与当前页面可交互元素的语义匹配程度通过嵌入向量余弦相似度计算。历史失败模式如果近期在同一类页面元素上如下拉菜单、弹窗连续失败可以调高u_plan。一个简单的复合公式可以是u_plan α * (1 - 页面熟悉度) β * (1 - 指令匹配度) γ * 历史失败密度。其中权重α, β, γ需要通过实验调整。阈值δ通常设置在0.4-0.6之间论文中通过敏感性分析发现0.4是一个稳健值。3.2 自适应规划器双模式切换的齿轮规划智能体π_plan根据u_plan和阈值δ决定调用显式规划器π_exp_plan还是隐式规划器π_imp_plan。显式规划器实现显式规划器接收剩余任务T_rem和当前观察O_t输出一个子目标序列[g1, g2, ..., gn]。关键在于它只承诺执行序列中的第一个子目标g1。执行完g1后环境状态改变分析器会重新评估不确定性可能会触发重新规划或模式切换。这避免了“一条道走到黑”的问题。提示工程技巧在给大模型的提示中需要明确要求其输出原子化的、可执行的子目标并且子目标之间应有清晰的逻辑递进关系。例如“给定任务‘在GitLab上合并分支A到主分支’当前页面是合并请求列表页。请分解出接下来的3个子目标。每个子目标应是一个具体的、可操作的描述如‘点击标题为XXX的合并请求’‘点击Merge按钮’‘在输入框填写合并信息并确认’。”隐式规划器实现隐式规划器更简单它直接根据T_rem和O_t预测下一个最合理的子目标g_t。它的提示更侧重于上下文理解“基于当前页面描述...和我们要完成的任务...下一步最应该做什么”模式切换的陷阱与应对模式频繁切换会导致振荡和效率低下。一个实用的技巧是引入迟滞。例如当从隐式切换回显式时要求u_plan必须连续低于(δ - 0.1)达到2个时间步而从显式切换到隐式时则要求u_plan一次超过(δ 0.1)即可。这增加了系统的稳定性。3.3 ConActU策略为MCTS注入不确定性感知这是整个框架中最具创新性的技术部分。在MCTS的扩展阶段推理智能体会生成K个候选动作{a1, a2, ..., aK}并附上每个动作的置信度分数{c1, c2, ..., cK}。这些置信度可以来自大模型输出每个选项的logits或通过特定提示让模型自我评估。ConActU计算步骤详解归一化将置信度转换为伪概率分布p_i c_i / sum(c_j)。这代表了模型对每个动作的相对偏好。计算总证据EE mean(c_i)。这个值反映了模型对当前状态下“生成合理动作”这件事的整体信心。E低意味着模型对所有选项都没把握EU高。计算归一化熵H_normH_norm - (sum(p_i * log(p_i))) / log(K)。熵值最大为1所有动作概率均等歧义性最大最小为0模型100%确定一个动作。H_norm高说明模型认为多个动作都合理AU高。分解不确定性EU 1 - EAU H_norm * E为什么是AU H_norm * E这个设计很精妙。H_norm高只表示分布平坦但如果同时E很低模型整体没信心那这种平坦可能源于无知而非真正的歧义。用E对H_norm进行缩放确保了只有在模型整体有信心E高的情况下高熵才被解释为高偶然不确定性。如果模型整体就没信心E低即使熵高也主要归因于认知不确定性。实操中的置信度获取让大模型直接输出置信度分数并非易事。一个可行的方法是使用logits。对于每个候选动作的文本描述获取模型在生成该描述最后一个令牌时的logits并经过softmax后取概率值作为置信度代理。另一种方法是设计自我评估提示“请为你刚才提出的每个候选动作1. ... 2. ...给出一个0-100的置信度分数表示你认为该动作能成功达成子目标的可能性。” 后者更容易实现但可能不如logits稳定。3.4 不确定性感知的MCTS模拟与回溯有了(EU, AU)后模拟阶段就不再是简单的随机模拟或价值网络评估。框架引入了一个“评估智能体”来对执行候选动作后的新状态进行快速评估给出一个基础可行性分数S_base例如0-10分。奖励调制规则的实际应用假设阈值τ 6论文中的较优值S_base 4执行后评估为失败。情况A (高EU低AU)EU 0.7, AU 0.3。模型缺乏知识但假装确定。这极可能是幻觉例如点击了一个不存在的元素ID。奖励R -1。这个惩罚会沿着MCTS树回溯降低该路径上所有父节点的Q值促使搜索放弃这条“幻觉路径”转而去探索父节点的其他兄弟节点即回溯。情况B (低EU高AU)EU 0.3, AU 0.7。模型有知识但页面确实存在多个类似按钮。奖励R S_base 4。虽然得分不高但这不是路径错误而是选择问题。保留这个中等分数会鼓励搜索器在未来访问同一状态时尝试选择其他候选动作因为当前动作的访问次数N(s,a)增加但其Q值提升不大根据PUCT公式其他未充分探索的动作会更受青睐从而实现在歧义状态下的探索。情况C (低EU低AU)EU 0.3, AU 0.3。模型非常自信地生成了动作a_k但执行后评估很差。这可能意味着动作本身逻辑正确但执行时遇到了确定性错误如网络超时、元素加载延迟、或前端脚本拦截。奖励R 0。这个中性奖励不会强化也不会过度惩罚该路径。更重要的是它会触发一个动作再生机制基于当前节点状态要求推理智能体重新生成一组候选动作从而有机会绕过那个临时的技术性错误。回溯更新无论奖励R是多少都会按照标准MCTS公式更新路径上所有节点的访问次数N(s,a)和价值Q(s,a)。Q(s,a) Q(s,a) (R - Q(s,a)) / N(s,a)。这种不确定性感知的奖励使得搜索树的价值估计更准确地反映了路径的“真实潜力”而非被幻觉或临时错误所污染。4. 实验复现与性能调优指南要真正理解并应用WebUncertainty最好的方式就是动手复现。这里我结合论文和自身经验梳理出一套可行的复现路径和调优重点。4.1 环境搭建与基准测试1. 选择测试环境WebArena首选。它是一个高度可控的模拟环境包含了购物、GitLab、地图、Reddit等多个网站的克隆任务定义清晰结果可重复。它的“仅文本”设置基于可访问性树排除了视觉干扰让你能专注于逻辑和不确定性建模的验证。WebVoyager用于测试真实网站的鲁棒性。需要注意真实网站变化快需要维护一个稳定的任务子集。论文中筛选了129个确定性任务避开了开放性问题和不稳定页面这个方法值得借鉴。2. 大模型后端选择论文使用了GPT-4-Turbo和Qwen-Max。对于复现我建议优先使用高性能闭源模型如GPT-4o、Claude-3.5 Sonnet。它们在复杂推理和遵循指令方面更可靠能减少因模型能力不足带来的额外噪声让你更纯粹地测试框架本身。对比开源模型使用Qwen2.5-72B-Instruct、DeepSeek-V2.5等顶级开源模型。这能验证框架在“弱模型”上的增强效果这也是WebUncertainty的一大亮点。3. 关键参数设置温度设置为较低值如0.1-0.3以降低生成随机性使置信度分数更稳定。MCTS参数w_puct探索权重论文设为5。这个值需要调优。值越大越倾向于探索访问次数少的节点值越小越倾向于利用价值高的节点。在网页任务中动作空间可能很大适当提高w_puct如3-10有助于探索。最大扩展节点数论文中每个子目标限制为10。这是平衡搜索深度和计算成本的关键。对于简单任务可以降低到5对于非常复杂的任务可以增加到15-20但要注意推理时间的线性增长。阈值δ规划切换阈值从0.4开始尝试。可以通过在验证集上画学习曲线来寻找最优值。τ模拟评估成功阈值论文中设为6满分10分制。这个阈值取决于你评估智能体的打分严格程度。可以设置为中位数分数。4.2 消融实验设计与结果分析论文中的消融实验图3非常具有说服力。在复现时务必进行类似的对比以确认每个模块的贡献。需要对比的基线模型w/o Action Unc.移除ConActU策略使用标准的MCTS通常用随机模拟或一个简单的价值函数。这是为了验证动作不确定性量化的必要性。w/o Task (Exp.)固定使用显式规划。用于测试在动态环境中僵化规划的弊端。w/o Task (Imp.)固定使用隐式规划。用于测试在长程任务中缺乏全局规划的弊端。Full WebUncertainty完整框架。预期结果与分析在WebArena这类结构化任务上Full w/o Task (Exp.) ≈ w/o Task (Imp.) w/o Action Unc.。显式规划可能略优于隐式规划因为环境相对稳定。完整框架的优势主要来自MCTS中不确定性对幻觉的过滤。在WebVoyager这类动态真实环境上Full w/o Task (Imp.) w/o Task (Exp.) w/o Action Unc.。隐式规划的灵活性优势会体现出来。完整框架则结合了两者的优点。w/o Action Unc.的跌幅应该最大尤其是在复杂任务上。这直接证明了无法区分错误来源是传统搜索方法的主要瓶颈。4.3 性能-成本权衡与优化技巧WebUncertainty引入了MCTS必然会增加计算开销主要是对大模型的API调用次数。论文显示其比另一个MCTS基线WebPilot节省了56%的时间同时性能更高这得益于其不确定性引导的搜索能更快剪枝无效路径。优化计算成本的实操技巧早期剪枝在MCTS的选择阶段如果某个节点的EU持续很高例如连续3次模拟都0.8可以认为该节点处于“高度无知”区域直接给予大幅负奖励并停止对其子树的进一步搜索。缓存机制对相同的状态子目标对缓存推理智能体生成的候选动作及其置信度。网页状态可以用DOM树的哈希值来表示。这能避免重复调用昂贵的大模型。简化评估智能体模拟阶段的评估不需要非常精确。可以使用一个更小、更快的模型如小型微调模型或启发式规则来快速判断动作执行后状态是否“看起来更接近目标”。论文中使用的是另一个大模型在实际部署中可以考虑轻量化。并行化模拟MCTS的模拟阶段是独立的可以并行执行充分利用多核CPU或异步IO来减少整体耗时。一个重要的心得是在复杂Web任务中一次失败执行的代价用户等待、任务重试、业务损失远高于额外的计算成本。因此用一定的计算开销换取成功率的显著提升在大多数实际应用场景中是划算的。WebUncertainty的价值就在于它用更智能的搜索不确定性引导实现了更高的“计算性价比”。5. 常见问题排查与避坑实录在复现和应用WebUncertainty框架的过程中我踩过不少坑也总结出一些共性的问题和解决方案。5.1 规划层问题智能体在两种模式间“反复横跳”问题现象智能体频繁在显式和隐式规划间切换导致行为碎片化无法连贯执行任务。根本原因任务不确定性u_plan的计算不稳定或阈值δ设置不合理。排查与解决检查u_plan的波动性记录每个时间步的u_plan值。如果它像噪声一样剧烈波动问题可能出在分析智能体。尝试优化提示词让分析智能体更关注结构性变化如页面主要布局板块的改变、关键功能区域的消失/出现而非细微的文本变化。引入平滑滤波使用滑动窗口平均例如u_plan_smoothed(t) 0.7 * u_plan(t) 0.3 * u_plan_smoothed(t-1)来过滤短期噪声。调整阈值δ并引入迟滞如前所述不要使用单一的切换点。实现一个带有上下界的迟滞区间例如[δ_low, δ_high] [0.35, 0.55]。只有当u_plan从低于δ_low升至高于δ_high时才切换到隐式规划反之只有当其从高于δ_high降至低于δ_low时才切回显式规划。丰富状态表示确保输入给分析智能体的O_t和H_t包含了足够的历史信息。例如除了当前DOM还可以附上前几步成功执行的动作序列摘要帮助模型理解任务进展的上下文做出更稳定的判断。5.2 推理层问题ConActU计算出的不确定性失真问题现象EU和AU的值总是很高或很低无法有效区分不同情况导致奖励调制失效。根本原因候选动作的置信度分数c_i获取方式有问题或者K值候选动作数量设置不当。排查与解决置信度分数校准大模型直接输出的置信度可能未经校准例如总是倾向于给出0.9以上的高分。可以尝试使用Logits这是最可靠的方法。确保你获取的是生成整个动作描述序列的最后一个令牌的logits并经过softmax。这反映了模型生成该完整动作的“难度”或“惊讶度”。温度缩放如果使用自我评估的置信度可以在模型输出的原始分数上应用一个简单的缩放函数例如c_calibrated sigmoid( (c_raw - bias) / scale )其中bias和scale通过在验证集上拟合得到。调整候选动作数量KK太小如2-3可能无法充分反映分布的熵K太大如10会增加计算成本且可能包含大量低质量候选。通常K5到8是一个不错的起点。可以观察不同K值下H_norm的分布情况。检查动作生成质量如果推理智能体生成的候选动作质量普遍很低例如包含大量语法错误或完全无关的动作那么置信度分布本身就没有意义。需要优化推理智能体的提示词要求其生成具体、可操作、基于当前页面元素的动作。5.3 执行失败问题评估智能体打分不准问题现象动作执行后评估智能体给出的S_base分数与真实任务完成情况相关性弱导致MCTS学到错误的奖励信号。根本原因评估任务本身很困难或者评估智能体能力不足。排查与解决简化评估目标不要让评估智能体直接判断“是否完成了子目标”而是判断“状态是否向好的方向变化”。可以设计更简单的、可量化的指标例如页面文本相关性执行动作后新页面文本与子目标关键词的嵌入相似度是否提高关键元素出现期望出现的元素如“确认按钮”、“成功提示”是否出现在DOM中错误状态减少页面上的错误提示信息是否消失使用规则模型混合评估对于某些确定性强的结果可以用规则判断。例如如果点击后页面跳转到了404直接打0分如果点击后一个模态框弹出则至少说明动作有效给予基础分。对于更模糊的情况再调用模型评估。在验证集上校准评估器手动标注一批动作执行后的状态是“成功”、“失败”还是“中性”然后训练一个简单的分类器如基于BERT微调或调整提示词使评估智能体的打分分布与人工标注对齐。5.4 效率问题单次任务耗时过长问题现象完成一个复杂任务需要几分钟甚至更久无法满足实时交互需求。根本原因MCTS搜索深度过大、模拟次数过多或大模型API调用延迟高。排查与解决限制搜索资源这是最直接的方法。严格限制每个子目标的总模拟次数或总思考时间。一旦超限就选择当前访问次数最多或Q值最高的动作执行。实现动作空间剪枝在生成K个候选动作后可以先根据置信度进行初步筛选。例如只保留置信度高于某个阈值如0.2的动作进入MCTS树直接丢弃那些模型自己都极没信心的选项。异步与批处理将MCTS中不同分支的模拟、不同候选动作的生成尽可能进行批处理调用大模型API以减少网络往返次数。考虑退化方案在不确定性极低u_plan和所有动作的EU都很低的简单步骤中可以绕过MCTS直接执行置信度最高的那个动作以节省大量时间。WebUncertainty框架为构建鲁棒的自主Web智能体提供了一个强大而优雅的蓝图。它的核心价值不在于某个惊为天人的算法而在于将“不确定性”这个AI系统中的幽灵具象化、可度量化并以此驱动整个决策流程的优化。在实际应用中你可能不需要完全照搬其所有模块但其“评估不确定性-区分来源-针对性应对”的思想完全可以借鉴到你的智能体系统中。例如即使你不做完整的MCTS也可以在生成单个动作时同时要求模型输出一个置信度并对低置信度的动作触发人工审核或备用方案这都能显著提升系统的可靠性。在这个大模型能力日新月异的时代让智能体学会“承认我不知道”和“我知道有哪些可能”或许是通向真正实用化的关键一步。