自我校正 Q-Learning

AAAIDec, 2020

Self-correcting Q-Learning

Rong Zhu, Mattia Rigotti

TL;DR本文介绍了一种新的自我校正 Q 学习算法，其通过平衡常规 Q-learning 中使用的单估计器的过高估计和 Double Q-learning 中使用的双估计器的低估计来解决最大化偏差问题，并提出了应用于 Deep Q Network 的 Self-correcting DQN 实现，在 Atari 2600 领域的多项任务中表现更好

Abstract

The q-learning algorithm is known to be affected by the maximization bias, i.e. the systematic overestimation of action values, an important issue that has recently received renewed attention. Double

q-learning double q-learning maximization bias self-correcting algorithm deep q network

发现论文，激发创造

双 Q 学习的深度强化学习

本文针对 DQN 算法中 Q-learning 超估计行动价值的问题，提出了 Double Q-learning 算法，通过将其与深度神经网络结合得到了一种新的算法，并在数个游戏里得到了更好的表现。

Sep, 2015

Maxmin Q-learning：控制 Q-learning 的估计偏差

本文提出 Maxmin Q-learning 算法来减少 Q-learning 中过高估计值的偏置，为了对偏置进行更好的控制，提出了一个可以灵活控制的参数，并经过实验证实了该算法在控制估计偏差方面更为有效，并在多个基准问题上实现了卓越的性能

Feb, 2020

连续强化学习中的双 Q 学习适应

提出了一种基于混合策略、利用两个独立网络来校正过度估计偏差的新方法，在少量 MuJoCo 环境上展示了有前景的接近 SOTA 的结果。

Sep, 2023

基于动作候选的修剪双 Q 学习：离散和连续动作任务

本文提出针对 Double Q-learning 中 Clipped Double Q-learning 存在的欠估计偏差问题，设计了一种基于候选动作集的 Clipped Double Q-learning 算法，实现了解决动作的过度估计和欠估计偏差之间的平衡，同时扩展了针对连续动作任务的 Clipped Double Q-learning 算法，并在多个基准问题中表现优异。

Mar, 2022

基于行动候选的裁剪双 Q 学习适用于离散和连续动作任务

本文提出了一种基于动作候选的剪裁双估计器算法，用于降低去估计剪裁双 Q 学习算法中的低估计偏差，经实验证明该算法可以更准确地估计最大期望行动价值，并在几个基准问题中表现良好。

May, 2021

同时双 Q 学习的有限时间分析

该论文提出了一种改良的双 $Q$- 学习方法，称为同步双 $Q$- 学习（SDQ），并通过有限时间分析展示了其性能。SDQ 消除了在两个 $Q$- 估计器之间的随机选择，这种改进使得我们可以通过一种新颖的切换系统框架来分析双 $Q$- 学习，从而有助于进行高效的有限时间分析。实证研究表明，与双 $Q$- 学习相比，SDQ 收敛更快，同时保留了降低最大化偏差的能力。最后，我们推导了 SDQ 的有限时间预期误差界限。

Jun, 2024

二步 Q-Learning

该研究提出了一种新的无偏置、无重要性采样的两步离策略 Q 学习算法，并通过适当的假设证明，该算法的迭代是有界的，并且几乎肯定收敛于最优 Q 值。研究还探讨了两步 Q 学习的平滑版本的收敛性分析，即通过用对数 - 和 - 指数函数代替最大函数。该算法具有鲁棒性和易于实现性，并在基准问题上进行了实验验证，如轮盘问题、最大化偏置问题和随机生成的马尔可夫决策过程，并将其与现有文献中的方法进行了比较。数值实验证明了两步 Q 学习及其平滑变体的卓越性能。

Jul, 2024

带有保守优势学习的同时双 Q 学习对演员 - 评论家方法的应用

该论文提出了 Simultaneous Double Q-learning with Conservative Advantage Learning (SDQ-CAL) 算法，用于改善 Actor-critic Reinforcement Learning 在连续控制任务中的样本效率和过度估计偏差问题，并在连续控制基准测试中实现了最先进的性能。

May, 2022

正则化 Q 学习通过强健平均化

我们提出了一种新的 Q 学习变体，称为 2RA Q 学习，以有原则的方式解决现有 Q 学习方法的一些弱点。我们对最大期望值项提出了鲁棒分布估计器，从而可以精确控制引入的估计偏差水平。分布鲁棒估计器具备闭合解，因此所提出的算法每次迭代的计算成本与 Watkins 的 Q 学习可比。对于表格情况，我们证明 2RA Q 学习收敛到最优策略，并分析其渐近均方误差。最后，我们进行了各种设置的数值实验，证实了我们的理论发现，并表明 2RA Q 学习通常优于现有方法。

May, 2024

通过对抗性行为来抑制 Q 学习中的过高估计

通过引入虚拟对手行为的虚拟对手 Q 学习（DAQ）算法，该论文旨在解决标准 Q 学习中过高估计偏差的问题，将学习过程建模为一个双人零和博弈，并统一了几种控制过高估计偏差的 Q 学习变体。通过将 DAQ 应用于现成的强化学习算法，可以简单有效地抑制过高估计偏差，并通过运用对抗性 Q 学习的整合视角分析了 DAQ 的有限时间收敛性，通过多个基准环境的实证研究展示了 DAQ 的性能。

Oct, 2023