自我校正 Q-Learning
本文针对 DQN 算法中 Q-learning 超估计行动价值的问题,提出了 Double Q-learning 算法,通过将其与深度神经网络结合得到了一种新的算法,并在数个游戏里得到了更好的表现。
Sep, 2015
本文提出 Maxmin Q-learning 算法来减少 Q-learning 中过高估计值的偏置,为了对偏置进行更好的控制,提出了一个可以灵活控制的参数,并经过实验证实了该算法在控制估计偏差方面更为有效,并在多个基准问题上实现了卓越的性能
Feb, 2020
本文提出针对 Double Q-learning 中 Clipped Double Q-learning 存在的欠估计偏差问题,设计了一种基于候选动作集的 Clipped Double Q-learning 算法,实现了解决动作的过度估计和欠估计偏差之间的平衡,同时扩展了针对连续动作任务的 Clipped Double Q-learning 算法,并在多个基准问题中表现优异。
Mar, 2022
本文提出了一种基于动作候选的剪裁双估计器算法,用于降低去估计剪裁双 Q 学习算法中的低估计偏差,经实验证明该算法可以更准确地估计最大期望行动价值,并在几个基准问题中表现良好。
May, 2021
该论文提出了一种改良的双 $Q$- 学习方法,称为同步双 $Q$- 学习(SDQ),并通过有限时间分析展示了其性能。SDQ 消除了在两个 $Q$- 估计器之间的随机选择,这种改进使得我们可以通过一种新颖的切换系统框架来分析双 $Q$- 学习,从而有助于进行高效的有限时间分析。实证研究表明,与双 $Q$- 学习相比,SDQ 收敛更快,同时保留了降低最大化偏差的能力。最后,我们推导了 SDQ 的有限时间预期误差界限。
Jun, 2024
该研究提出了一种新的无偏置、无重要性采样的两步离策略 Q 学习算法,并通过适当的假设证明,该算法的迭代是有界的,并且几乎肯定收敛于最优 Q 值。研究还探讨了两步 Q 学习的平滑版本的收敛性分析,即通过用对数 - 和 - 指数函数代替最大函数。该算法具有鲁棒性和易于实现性,并在基准问题上进行了实验验证,如轮盘问题、最大化偏置问题和随机生成的马尔可夫决策过程,并将其与现有文献中的方法进行了比较。数值实验证明了两步 Q 学习及其平滑变体的卓越性能。
Jul, 2024
该论文提出了 Simultaneous Double Q-learning with Conservative Advantage Learning (SDQ-CAL) 算法,用于改善 Actor-critic Reinforcement Learning 在连续控制任务中的样本效率和过度估计偏差问题,并在连续控制基准测试中实现了最先进的性能。
May, 2022
我们提出了一种新的 Q 学习变体,称为 2RA Q 学习,以有原则的方式解决现有 Q 学习方法的一些弱点。我们对最大期望值项提出了鲁棒分布估计器,从而可以精确控制引入的估计偏差水平。分布鲁棒估计器具备闭合解,因此所提出的算法每次迭代的计算成本与 Watkins 的 Q 学习可比。对于表格情况,我们证明 2RA Q 学习收敛到最优策略,并分析其渐近均方误差。最后,我们进行了各种设置的数值实验,证实了我们的理论发现,并表明 2RA Q 学习通常优于现有方法。
May, 2024
通过引入虚拟对手行为的虚拟对手 Q 学习(DAQ)算法,该论文旨在解决标准 Q 学习中过高估计偏差的问题,将学习过程建模为一个双人零和博弈,并统一了几种控制过高估计偏差的 Q 学习变体。通过将 DAQ 应用于现成的强化学习算法,可以简单有效地抑制过高估计偏差,并通过运用对抗性 Q 学习的整合视角分析了 DAQ 的有限时间收敛性,通过多个基准环境的实证研究展示了 DAQ 的性能。
Oct, 2023