使用目标网络打破致命三角
基于线性近似 Q 值更新的分析方法,提出一种稳定的深度 Q 学习算法,不需要传统的技巧(如目标网络、自适应梯度优化器或使用多个 Q 函数)就能实现连续控制,并在 OpenAI Gym 的标准 MuJoCo 基准测试中表现良好。
Mar, 2019
本研究提供了对深度强化学习中关于目标网络的理论解释,通过对拟合部分策略估计方法的形式化定义,解释了目标网络为何可以稳定 TD 学习,并阐述了它的优缺点和在极具挑战性的离线采样和非线性函数逼近设置中保证收敛的条件。
Feb, 2023
通过目标网络和超参数化线性函数逼近的组合,我们证明在某些情况下,即使使用离线数据,也可以建立起一个较弱的收敛条件来估计引导值。我们的条件自然满足对整个状态 - 动作空间进行期望更新或使用一批完整轨迹从情景马尔科夫决策过程中进行学习。值得注意的是,仅使用目标网络或超参数化模型无法提供这种收敛保证。此外,我们将结果推广到使用截断轨迹进行学习,并证明了在对任务进行轻微修改时,可以实现收敛性,类似于对轨迹中的最终状态进行值截断。我们的主要结果关注于预测的时序差异估计,并提供概率较高的值估计误差界和对 Baird 的对策和 Four-room 任务的实证分析。此外,我们探讨了控制设定,证明了类似的收敛条件适用于 Q 学习。
May, 2024
本文分析了在线性函数逼近、离策略学习和自举的 “致命三角” 场景中的多步 TD 学习算法,并证明了当采样周期 n 足够大时,n 步 TD 学习算法收敛到一个解。基于这些发现,提出并分析了两种 n 步 TD 学习算法,这些算法可以视为梯度和控制理论算法的无模型强化学习对应物。
Feb, 2024
本文研究了在平均奖励 MDP 中具有函数逼近的异策略策略评估问题,提出了两种新算法来解决德雷德三元组问题,这是首个求解微分值函数的收敛离线线性函数逼近算法,同时也是首个无需估计密度比的收敛离线线性函数逼近算法,并在简单域和挑战的机器人仿真任务中进行了经验证明。
Jan, 2021
本文介绍了一种新的基于目标的时间差分(TD)学习算法,并对其收敛性进行了理论分析,该算法与标准的 TD 学习不同,维护两个独立的学习参数 - 目标变量和在线变量,以加速 Deep Q 学习中目标网络的收敛。
Apr, 2019
该论文通过分析 extsc {Tree Backup} 和 extsc {Retrace} 算法在线性函数逼近下的不稳定性,提出了一种基于二次凸凹鞍点公式的稳定高效梯度下降算法,并证明了其收敛性和有限样本上界,同时还提供了对其他算法收敛速度的新证明。
May, 2017
本文介绍了一种针对强化学习中离线学习的校正方法(COP-TD),并通过引入折扣因子解决了非线性函数近似中的问题,进一步分析了折扣 COP-TD 并提出了一种在线的软归一化惩罚,此方法在 Atari 视频游戏中比软归一化惩罚取得了更好的实际效果。
Jan, 2019
在这篇论文中,我们提出了一种新的算法,它通过一种接近性项稳定了策略改进,并限制由连续策略引发的折扣状态行动访问分布彼此接近,并通过离线训练和对抗性学习的方式学习这种接近性项。我们在基准高维控制任务中实证表明,我们提出的方法可以对稳定性产生有益影响,并提高最终性能.
Mar, 2020