回顾带baseline的REINFORCE算法中用到的动作优势部分为其中Gt是真实采样轨迹真实采样不会系统性的偏离期望值但是单条轨迹的波动性很大所以是高方差低偏差的。而Actor-Critic算法中用到的动作优势部分为由于其中的状态价值函数来自于Critic网络对St和St1的评估而参数一开始是随机初始化的所以可能有很大的偏差但是随机性很小所以是低方差高偏差的。广义优势估计GAE算法的核心思想就是在这两者之间找到一个平衡。δt只有一步来自真实奖励值所以叫做一步优势估计记作At1δt有两步来自真实奖励值叫做二步优势估计记作At2δtγδt1有k步来自真实奖励值叫做k步优势估计记作AtkGAE将所有可能的Atk加权平均其中λ是0到1之间的超参数我们想让所有的权重之和等于1由于所有权重之和累加等于所以可以给每个权重乘以1-λ从而所有权重和为1。从而最终的GAE公式为将代入GAE公式化简将每个δtl的系数加和得到对于任意δtl的系数为得到GAE公式为从而得到通用公式使得每一步都可以利用前一步的计算结果参考视频RethinkFun的个人空间-RethinkFun个人主页-哔哩哔哩视频