05-26 · LLM 最新论文速览
今日候选池104篇硬过滤 LLM 打分后通过评估16篇精选 Top-10另列 6 篇速览。关注方向多 Agent 系统 / LLM 后训练RL/SFT / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易 精选1. Triplet-Block Diffusion RWKV评分8.2·方向cs.CL · Computation and Language ·arxiv2605.25969· PDF 提出 B³D-RWKV用 triplet-block 布局将双向离散扩散与 RWKV O(L) 推理统一7.2B 模型获 1.6× 解码加速。扩散语言模型RWKV推理加速摘要因果 Transformer 语言模型受限于严格的顺序解码和二次方注意力开销。线性时间因果模型与离散扩散模型分别缓解了这些问题但二者的结合存在本质矛盾扩散需要双向注意力而因果模型是单向的。为统一两种架构作者提出 B³D-RWKV通过三元块布局(triplet-block layout) 方法将 RWKV 的 O(L) 推理效率与并行双向离散扩散相结合。B³D-RWKV-7.2B 在 8 项任务上达到与现有模型相当的精度同时在解码吞吐量上显著优于基线平均加速 1.6 倍。评分细项rel 9 / nov 8 / prac 7 / author 52. Hera: Learning Long-Horizon Coordination for Device-Cloud Collaborative LLM Agents评分8.0·方向cs.MA · Multiagent Systems ·arxiv2605.24598· PDF Hera 用模仿学习冷启动RL联合优化在长步骤 agent 任务中做 step 级端云路由兼顾成功率与云端调用成本。多agent系统端云协同强化学习推理成本优化摘要LLM智能体在长时域复杂任务中表现优异但实际部署面临端云困境端侧模型高效但脆弱云端模型强大但昂贵。现有端云路由方案多为粗粒度的任务级决策无法适应多步交互中动态变化的难度。本文提出 Hera一种步级端云协同调度框架通过两阶段训练实现性能与成本的帕累托最优第一阶段利用模仿学习冷启动将步级路由建模为监督分类问题依据端侧与云端动作的一致性标注每步状态第二阶段通过代价感知的强化学习对相同状态分组并以更高期望回报和更少云端调用为目标联合优化。在 ALFWorld、WebShop 和 AppWorld 上的实验表明Hera 仅在 46.3% 的步骤中调用云端即可达到纯云端方案 92.5% 的成功率显著优于已有方法。评分细项rel 8.5 / nov 7.5 / prac 8.0 / author 6.03. Language Models Need Sleep评分7.8·方向cs.CL · Computation and Language ·arxiv2605.26099· PDF 提出类睡眠巩固机制Transformer 周期性将 KV cache 压缩为 SSM 快权重用离线多轮回放换取推理时低延迟长上下文。长上下文注意力机制SSM推理加速摘要基于 Transformer 的大语言模型在长上下文任务中面临注意力机制随序列长度扩展性差的问题。本文提出一种类似睡眠的记忆巩固机制模型周期性地将近期上下文转化为持久的快权重fast weights随后清空 KV cache。在睡眠阶段模型对累积上下文执行 N 次离线循环处理通过学习到的局部规则更新其状态空间模型SSM模块的快权重推理时额外计算被转移至睡眠阶段从而保持清醒时的低延迟预测。实验在元胞自动机、多跳图检索等合成任务及数学推理任务上验证了该方法的有效性——常规 Transformer 和 SSM-注意力混合模型均失败的场景下增大睡眠时长 N 可持续提升性能尤其在需要深层推理的样本上收益最大。评分细项rel 8.0 / nov 8.5 / prac 6.5 / author 7.04. Multi-Agent Coordination Adaptation via Structure-Guided Orchestration评分7.4·方向cs.MA · Multiagent Systems ·arxiv2605.25746· PDF MACA 框架将多 agent 协调建模为结构与编排的联合后验推断学习任务/预算条件先验平均提升 8.4% 且省 43% token多agent协调概率推断token效率摘要随着基于大语言模型的多智能体系统处理日益复杂的任务如何兼顾结构稳定性与动态适应性成为核心挑战。现有方法要么预先固定协调结构缺乏细粒度控制要么动态调整决策但协调结构隐式且不稳定。本文从概率视角重新审视多智能体协调将其建模为结构与编排联合分布上的后验推断提出 MACA 框架。MACA 学习一个以任务和预算为条件的结构先验刻画智能体参与及交互模式并以基于策略的编排作为后验推断的近似实现高效且细粒度可控的协调。实验表明MACA 在多个基准上平均超越自适应多智能体基线 8.42%同时减少 43.19% 的 token 消耗且结构与编排的联合适应能有效抑制冗余交互。评分细项rel 8.0 / nov 7.0 / prac 7.5 / author 5.05. Recursive Multi-Agent Trading System: Iterative Optimized Portfolio Strategy Under Geopolitical Uncertainty评分7.3·方向cs.MA · Multiagent Systems ·arxiv2605.25311· PDF RMATS 用四个专业 agent 递归协作做多资产组合管理561 天回测最大回撤 9.62%侧重地缘风险下的资本保护量化交易多agent组合管理风险控制摘要递归多智能体交易系统RMATS集成情绪、报告、分析和风险四个专用智能体由递归管理智能体通过迭代反馈环路协调。在2023年1月至2025年3月共561个交易日、覆盖24种多类别资产的实验中RMATS最大回撤仅9.62%优于MVO15.49%和FinBERT情绪策略15.28%并在5个地缘政治压力场景中的3个取得最低事件期回撤。尽管在持续牛市中收益不及收益最大化基线消融实验证实各智能体组件对下行保护均有独立贡献。RMATS定位为面向风险控制的架构适合在地缘政治不确定性下优先保全资本的机构投资者。评分细项rel 8.5 / nov 5.5 / prac 7.0 / author 5.06. Market Regime Council for Dynamic Credit Assignment in Multi-Agent LLM Decision Systems评分7.8·方向q-fin.PM · Portfolio Management ·arxiv2605.24490· PDF 用 Shapley 值为多 agent LLM 组合管理系统做动态信用分配结合贝叶斯自适应与 regime 乘子在加密资产上达 1.51 Sharpe。多agent量化交易组合管理Shapley值摘要多智能体LLM投资组合决策系统缺乏对专家智能体进行信用分配的原则性方法且在市场regime切换时易受冷启动主导效应影响。本文提出Market Regime CouncilMRC一种协作式多智能体决策系统通过计算所有单体、两两及大联盟输出的精确Shapley值实现在线智能体加权。MRC实例化3个专家智能体每个交易周期基于指数加权历史表现重算联盟Shapley权重利用贝叶斯自适应混合稳定早期阶段并施加regime依赖乘子调整智能体权威同时以五层因果追踪记录每次再平衡。在13种加密资产、1037个交易日、5个随机种子的实验中MRC实现Sharpe比率1.51、累计收益440.1%在主动基线中累计收益、Sharpe和信息比率均排名第一最大回撤最低。消融实验表明收益来源于跨联盟输出的Shapley加权整合而非单一模块。评分细项rel 9 / nov 7 / prac 8 / author 57. MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research评分7.1·方向cs.AI · Artificial Intelligence ·arxiv2605.26114· PDF MobileGym 提供浏览器托管的轻量移动 GUI 仿真环境支持 JSON 状态判定和大规模并行 RL rolloutGRPO 训练 Qwen3-VL-4B 提升 12.8ppagentRLGUI仿真GRPO摘要MobileGym 是一个基于浏览器的轻量级移动端 GUI 智能体研究平台无需复制专有后端即可实现高保真交互。其核心贡献在于两项此前难以实现的能力基于结构化 JSON 状态的确定性判定机制提供可验证的结果信号以及通过低成本并行 rollout 支持可扩展的在线强化学习每实例约 400 MB 内存、约 3 秒冷启动单服务器可承载数百并行实例。配套的 MobileGym-Bench 提供 28 款应用上的 416 个参数化任务模板256 测试 160 训练并采用结构化 AnswerSheet 协议避免自由文本匹配失败。Sim-to-Real 实验中基于 GRPO 微调 Qwen3-VL-4B 在测试集上提升 12.8 个百分点真机执行保留了 95.1% 的仿真训练增益。评分细项rel 7 / nov 7 / prac 8 / author 68. Game-Theoretic Modeling of Heterogeneous Investor Interactions for Stock Price Forecasting评分7.2·方向q-fin.TR · Trading and Market Microstructure ·arxiv2605.23953· PDF 将博弈论机制嵌入异质投资者交互的异构图网络结合时序位置编码预测股价走势用于量化交易。股票预测博弈论异构图网络量化交易摘要股票价格预测是量化交易的核心任务。现有方法多依赖静态先验假设分别建模个股时序依赖或基于预定义结构的跨股票空间依赖忽视了驱动价格变动的复杂市场动态。本文提出一种博弈论建模方法将博弈机制嵌入异质图结构精细刻画异质投资者围绕目标股票的动态策略交互。通过时序位置编码反映不同时间步博弈事件对未来价格的差异化影响并借助异质图网络实现投资者博弈的实时信息传播与节点更新。在两个真实基准数据集上的实验表明该方法显著优于现有最优方法。评分细项rel 8 / nov 6 / prac 7 / author 59. Anticipate and Learn: Unleashing Idle-Time Compute in Proactive Agents评分7.0·方向cs.MA · Multiagent Systems ·arxiv2605.25971· PDF ProAct 在用户交互间隙利用空闲算力预测下一步需求并预取信息减少对话轮次 14.8% 并降低幻觉率 28.1%。proactive agentidle-time computeagentic workflow摘要当前 AI 智能体本质上是被动的——仅在用户发出指令后才开始计算交互间的空闲时间被大量浪费。本文提出 ProAct一种主动式智能体架构利用空闲时间预判用户即将提出的需求。ProAct 通过分析对话历史与持久记忆预测未来需求并迭代获取信息在用户提问前即完成知识准备。同时提出 ProActEval 基准包含 40 个领域的 200 个场景涵盖可预测需求链和多样化用户认知画像。实验表明ProAct 相比被动基线将所需交互轮次减少 14.8%用户负担降低 11.7%幻觉率下降 28.1%并在 MemBench 上达到最优反思准确率。评分细项rel 7 / nov 7 / prac 7 / author 610. Peak-Then-Collapse and the Four Interface Channels of Knowledge-Graph Tool Use评分6.7·方向cs.CL · Computation and Language ·arxiv2605.26037· PDF 在知识图谱工具调用上复现 GRPO/RLVR 训练发现 peak-then-collapse 现象并归因于接口缺乏自然语言错误反馈。RLVR工具使用训练失败模式摘要本文在知识图谱工具调用场景下测试标准 RLVR 方案基于 Qwen2.5-7B-Instruct 的 GRPO使用 Freebase 上四个导航动词处理 Complex WebQuestions。在自验证检索奖励下策略的工具锚定回答率从 3.8% 升至 9.6%随后在 50 步内骤降至 0%——呈现先升后崩模式四个种子均可复现。七种奖励设计揭示四类反复出现的失败模式更密集的代理奖励只是转移而非消除问题。作者指出关键差异在于接口反馈Python 报错含自然语言信号而 Freebase 空结果 [] 不提供此类信息。Oracle 消融排除了关系选择瓶颈95.4% 的错误源于检索组合失败。作为缓解方案单轮自蒸馏在 7B 模型上达到 40.0% EM且容量不敏感——性能上限受限于接口本身。评分细项rel 7.5 / nov 7.0 / prac 5.5 / author 5.0 速览 · 其他通过评估的工作6 篇一句话扫读按评分从高到低点击标题跳转 arxiv。cs.AI6.7CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists· 针对扩散语言模型提出 D²-Monitor利用去噪轨迹中隐状态的安全犹豫信号做双层安全监控路由。cs.CL6.6Mitigating Provenance-Role Collapse in Long-Term Agents via Typed Memory Representation· 提出 MemIR 类型化记忆中间表示将长期记忆分为证据/检索线索/声明原子解决 agent 来源-角色混淆问题。cs.MA6.1From Facts to Insights: A Persona-Driven Dual Memory Framework and Dataset for Role-Playing Agents· DualMem 将角色扮演记忆解耦为事实认知与人设洞察双流经 SFTRL 训练 4B 模型超越 DeepSeek-V3.2 零样本基线。cs.MA6.0Multi-Agent Systems are Mixtures of Experts: Who Becomes an Influencer?· 用 Friedkin-Johnsen 意见动力学建模多 agent 讨论将 LLM 多 agent 系统视为混合专家并分析影响力形成机制cs.AI6.0MuCRASP: Multimodal Chain-of-thought Reasoning aware Structured Pruning· MuCRASP 识别 CoT 推理中的 pivot token 并按跨模态激活差异做层级敏感结构化剪枝30% 压缩下保持推理质量。cs.AI6.0VeriTrace: Evolving Mental Models for Deep Research Agents· VeriTrace 用认知图谱实现解释更新、偏差反馈、模式修订三个显式调控环路提升深度研究 agent 的中间表征质量数据源arxiv.org · 评分与中文摘要由 LLM 自动生成仅供初筛参考