深度强化学习与致命三角
基于线性近似 Q 值更新的分析方法,提出一种稳定的深度 Q 学习算法,不需要传统的技巧(如目标网络、自适应梯度优化器或使用多个 Q 函数)就能实现连续控制,并在 OpenAI Gym 的标准 MuJoCo 基准测试中表现良好。
Mar, 2019
本文分析了在线性函数逼近、离策略学习和自举的 “致命三角” 场景中的多步 TD 学习算法,并证明了当采样周期 n 足够大时,n 步 TD 学习算法收敛到一个解。基于这些发现,提出并分析了两种 n 步 TD 学习算法,这些算法可以视为梯度和控制理论算法的无模型强化学习对应物。
Feb, 2024
本文研究将强化权重与非连续、离线数据相结合以提高样本效率,同时在 Atari 2600 电子游戏上测试了新的 X-ETD(n)算法,证明了其可扩展性和广泛适用性。
Jul, 2021
本研究探讨了隐式正则化在深度增强学习中的应用。我们的分析表明,隐式正则化可能会导致总体泛化性能下降和特征表示的变形。这篇论文通过提出一种基于 DR3 的新正则化方法来解决这个隐式正则化问题,并在 Atari 2600 游戏、D4RL 领域和从图像中学习的机器人操作等领域取得了良好的性能和稳定性。
Dec, 2021
提出一种直接解决双重采样问题的方法,通过在逐渐增大的马尔可夫数据流中使用两个样本,该算法在计算上与 Gradient Temporal Difference (GTD) 一样高效,但摆脱了 GTD 的额外权重,而唯一的代价是随着时间的推移,存储空间呈对数增长。
Aug, 2023
本文章研究了在没有积极的环境交互的情况下从观测数据学习行动的机制,并引入了 “tandem learning” 实验模型来帮助理解离线强化学习的挑战,并发现函数逼近与固定数据分布是离线深度强化学习中最强的因素,对离线深度强化学习提供了有价值的见解,同时也为在线控制学习中观察到的现象提供了新的解释。
Oct, 2021
本研究提供了对深度强化学习中关于目标网络的理论解释,通过对拟合部分策略估计方法的形式化定义,解释了目标网络为何可以稳定 TD 学习,并阐述了它的优缺点和在极具挑战性的离线采样和非线性函数逼近设置中保证收敛的条件。
Feb, 2023
本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法(包括 GTD 和 TDC)的统一视角,并提出了一种基于后掠技术的新的收敛算法,最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。
Feb, 2023