第二周学习报告

张

张建站

2026/5/25 10:55:38

10分钟阅读

一、学习内容概述本周重点学习了深度强化学习中的基于策略的算法主要包括以下内容策略梯度算法Policy Gradient从基于价值的方法如DQN转向直接优化策略。引入了策略参数化、目标函数 J(θ)J(θ) 的定义及其梯度推导。核心结论策略梯度定理给出了梯度更新的期望形式。REINFORCE算法使用蒙特卡洛方法估计回报更新策略参数。Actor-CriticA2C / A3C框架引入评论家Critic来估计价值函数减少方差。优势函数Advantage Function用于更稳定的更新。A3C异步并行的Actor-Critic结构提升训练效率。确定性策略梯度DPG与DDPG针对连续动作空间提出确定性策略 aμθ(s)aμθ(s)。DPG定理梯度通过链式法则计算。DDPG结合经验回放、目标网络、批标准化等技术提升稳定性。SACSoft Actor-Critic引入最大熵强化学习鼓励探索。使用双重Q网络缓解过估计问题。自动调整熵正则项系数 αα适应不同状态下的探索需求。二、关键收获理解了基于策略的方法与基于价值的方法的本质区别前者直接优化策略后者间接通过价值函数导出策略。掌握了策略梯度定理的推导思路及其在REINFORCE、A2C中的应用。理解了确定性策略在连续控制任务中的优势以及DDPG如何结合DQN技巧提升稳定性。学习了SAC算法如何通过最大熵框架平衡探索与利用并实现自动调整正则项。三、算法对比总结算法策略类型是否离线是否使用价值网络特点REINFORCE随机在线否高方差简单A2C随机在线是低方差稳定DDPG确定性离线是适合连续动作SAC随机离线是探索强稳定四、实践与代码通过车杆环境CartPole的代码实践进一步理解了A2C、DDPG、SAC的实际训练流程。观察了不同算法的收敛速度、稳定性及对超参数的敏感性。

如何免费获取VMware Workstation Pro 17许可证密钥：完整实践指南

如何免费获取VMware Workstation Pro 17许可证密钥：完整实践指南【免费下载链接】VMware-Workstation-Pro-17-Licence-Keys Free VMware Workstation Pro 17 full license keys. Weve meticulously organized thousands of keys, catering to all major versions o…...

2026/5/25 10:50:34 阅读更多 →

飞书文档批量导出架构解析：企业级文档迁移解决方案实现原理

飞书文档批量导出架构解析：企业级文档迁移解决方案实现原理【免费下载链接】feishu-doc-export 飞书文档导出服务项目地址: https://gitcode.com/gh_mirrors/fe/feishu-doc-export 面对企业知识库迁移的复杂挑战，传统手动导出方式已无法满足大规…...

2026/5/25 10:50:07 阅读更多 →

3步完成Switch注入：TegraRcmGUI图形化工具完全指南

3步完成Switch注入：TegraRcmGUI图形化工具完全指南【免费下载链接】TegraRcmGUI C GUI for TegraRcmSmash (Fuse Gele exploit for Nintendo Switch) 项目地址: https://gitcode.com/gh_mirrors/te/TegraRcmGUI TegraRcmGUI是Windows平台上最直观的Switch注…...

2026/5/25 10:48:11 阅读更多 →

ML模型监控工具：监控和维护机器学习模型的性能

ML模型监控工具：监控和维护机器学习模型的性能一、ML模型监控工具概述 1.1 ML模型监控工具的定义 ML模型监控工具是指用于监控和维护机器学习模型性能的软件工具。它通过收集模型的预测数据、性能指标和数据质量，帮助用户了解模型的状态，及时…...

2026/5/24 0:08:10 阅读更多 →

AI 开发工具选择指南：Qoder、Qwen 与开发者使用策略

AI 开发工具选择指南：Qoder、Qwen 与开发者使用策略引言在 AI 技术快速发展的今天，越来越多的 AI 工具涌现出来，帮助开发者提高工作效率。但对于许多开发者来说，面对众多的 AI 产品和服务，往往感到困惑：这…...

2026/5/25 8:18:41 阅读更多 →

全平台资源下载神器：5分钟掌握res-downloader的完整使用指南

全平台资源下载神器：5分钟掌握res-downloader的完整使用指南【免费下载链接】res-downloader 视频号、小程序、抖音、快手、小红书、直播流、m3u8、酷狗、QQ音乐等常见网络资源下载! 项目地址: https://gitcode.com/GitHub_Trending/re/res-downloader 还在…...

2026/5/24 0:26:41 阅读更多 →

2024三星固件下载完整指南：Bifrost跨平台工具终极解决方案

2024三星固件下载完整指南：Bifrost跨平台工具终极解决方案【免费下载链接】Bifrost Cross-platform tool for downloading Samsung mobile device firmware. 项目地址: https://gitcode.com/gh_mirrors/sa/Bifrost 还在为三星设备固件下载而烦恼吗&#xff…...

2026/5/24 0:26:45 阅读更多 →