第二周学习报告
一、学习内容概述本周重点学习了深度强化学习中的基于策略的算法主要包括以下内容策略梯度算法Policy Gradient从基于价值的方法如DQN转向直接优化策略。引入了策略参数化、目标函数 J(θ)J(θ) 的定义及其梯度推导。核心结论策略梯度定理给出了梯度更新的期望形式。REINFORCE算法使用蒙特卡洛方法估计回报更新策略参数。Actor-CriticA2C / A3C框架引入评论家Critic来估计价值函数减少方差。优势函数Advantage Function用于更稳定的更新。A3C异步并行的Actor-Critic结构提升训练效率。确定性策略梯度DPG与DDPG针对连续动作空间提出确定性策略 aμθ(s)aμθ(s)。DPG定理梯度通过链式法则计算。DDPG结合经验回放、目标网络、批标准化等技术提升稳定性。SACSoft Actor-Critic引入最大熵强化学习鼓励探索。使用双重Q网络缓解过估计问题。自动调整熵正则项系数 αα适应不同状态下的探索需求。二、关键收获理解了基于策略的方法与基于价值的方法的本质区别前者直接优化策略后者间接通过价值函数导出策略。掌握了策略梯度定理的推导思路及其在REINFORCE、A2C中的应用。理解了确定性策略在连续控制任务中的优势以及DDPG如何结合DQN技巧提升稳定性。学习了SAC算法如何通过最大熵框架平衡探索与利用并实现自动调整正则项。三、算法对比总结算法策略类型是否离线是否使用价值网络特点REINFORCE随机在线否高方差简单A2C随机在线是低方差稳定DDPG确定性离线是适合连续动作SAC随机离线是探索强稳定四、实践与代码通过车杆环境CartPole的代码实践进一步理解了A2C、DDPG、SAC的实际训练流程。观察了不同算法的收敛速度、稳定性及对超参数的敏感性。