rf 强化学习第五章广义优势估计（GAE）部分（共五章）

张

张建站

2026/6/12 3:20:57

10分钟阅读

回顾带baseline的REINFORCE算法中用到的动作优势部分为其中Gt是真实采样轨迹真实采样不会系统性的偏离期望值但是单条轨迹的波动性很大所以是高方差低偏差的。而Actor-Critic算法中用到的动作优势部分为由于其中的状态价值函数来自于Critic网络对St和St1的评估而参数一开始是随机初始化的所以可能有很大的偏差但是随机性很小所以是低方差高偏差的。广义优势估计GAE算法的核心思想就是在这两者之间找到一个平衡。δt只有一步来自真实奖励值所以叫做一步优势估计记作At1δt有两步来自真实奖励值叫做二步优势估计记作At2δtγδt1有k步来自真实奖励值叫做k步优势估计记作AtkGAE将所有可能的Atk加权平均其中λ是0到1之间的超参数我们想让所有的权重之和等于1由于所有权重之和累加等于所以可以给每个权重乘以1-λ从而所有权重和为1。从而最终的GAE公式为将代入GAE公式化简将每个δtl的系数加和得到对于任意δtl的系数为得到GAE公式为从而得到通用公式使得每一步都可以利用前一步的计算结果参考视频RethinkFun的个人空间-RethinkFun个人主页-哔哩哔哩视频

5分钟掌握BibiGPT：AI音视频智能总结的完整解决方案

5分钟掌握BibiGPT：AI音视频智能总结的完整解决方案【免费下载链接】BibiGPT-v1 BibiGPT v1 one-Click AI Summary for Audio/Video & Chat with Learning Content: Bilibili | YouTube | Tweet丨TikTok丨Dropbox丨Google Drive丨Local files | Websites丨Podc…...

2026/6/12 3:17:51 阅读更多 →

【Video Agent 15】（Arxiv）GCAgent: Long-Video Understanding via Schematic and Narrative Episodic Memory

【Video Agent】（Arxiv）GCAgent: Long-Video Understanding via Schematic and Narrative Episodic Memory论文简介 🍀一、论文阅读1.1 引言（Introduction）1.2 方法（Method）1.2.1 A.框架概述&am…...

2026/6/12 3:17:00 阅读更多 →

Harness 教程 01：平台介绍与环境搭建（国内网络环境落地版）

如果你正在做 DevOps 或平台工程，大概率已经听说过 Harness。简单来说，Harness 是一个面向云原生时代的端到端交付平台，涵盖 CI、CD、Feature Flags、混沌工程、Cloud Cost Management、安全合规（SSCA）、内部开发者门户（IDP）等能力。它的想法很有意思：用 AI 和智能…...

2026/6/12 3:10:58 阅读更多 →

JPEXS Free Flash Decompiler：SWF逆向工程架构解析与技术实践

JPEXS Free Flash Decompiler：SWF逆向工程架构解析与技术实践【免费下载链接】jpexs-decompiler JPEXS Free Flash Decompiler 项目地址: https://gitcode.com/gh_mirrors/jp/jpexs-decompiler JPEXS Free Flash Decompiler是一款基于Java开发的开源SWF文件…...

2026/6/11 13:26:37 阅读更多 →