3个速度场机制,在推理预算约束下,如何让策略采样快5倍而不崩溃【开篇钩子】如果我们正在部署一个需要在100毫秒内完成决策的机器人策略,会发现一个反直觉的瓶颈:预训练好的扩散策略虽然生成质量高,但50步的迭代去噪意味着推理延迟直接突破物理系统的控制周期上限。这不是简单的工程优化问题——扩散模型的分数场在离散时间步上的逐次修正,本质上与强化学习需要的快速动作采样存在结构性矛盾。本章将建立"为什么Flow Matching的速度场表达更适合策略参数化"的物理直觉,并给出经过机器人控制任务验证的ODE/SDE转换框架,以及Flow-GRPO在推理任务中的组相对优化方案。1.1 从分数场到速度场:为什么扩散采样在RL中成为瓶颈核心矛盾扩散模型在生成任务中的成功建立在一条核心假设上:通过多步去噪逐步将高斯噪声转化为结构化数据。这条路径在图像合成中是可以接受的——用户不会感知到50步迭代的延迟。但在强化学习的闭环控制中,策略必须在每个时间步输出一个动作,延迟直接转化为控制周期的浪费。更深层的问题是,扩散模型依赖的分数匹配(Score Matching)需要估计数据分布的对数梯度∇xlog⁡p(x)\nabla_x \log p(x)