连续强化学习中的双 Q 学习适应
本文介绍了一种新的自我校正 Q 学习算法,其通过平衡常规 Q-learning 中使用的单估计器的过高估计和 Double Q-learning 中使用的双估计器的低估计来解决最大化偏差问题,并提出了应用于 Deep Q Network 的 Self-correcting DQN 实现,在 Atari 2600 领域的多项任务中表现更好
Dec, 2020
混合符号奖励环境中,重新考虑原有策略更新方法的安全性,通过解决数值估计误差的问题和不显式地最大化 Q 值的方法,提出了新的离策略演员 - 评论家方法,以提高深度强化学习算法在连续动作空间中的学习效果。
Nov, 2023
本文针对 DQN 算法中 Q-learning 超估计行动价值的问题,提出了 Double Q-learning 算法,通过将其与深度神经网络结合得到了一种新的算法,并在数个游戏里得到了更好的表现。
Sep, 2015
本文提出 Maxmin Q-learning 算法来减少 Q-learning 中过高估计值的偏置,为了对偏置进行更好的控制,提出了一个可以灵活控制的参数,并经过实验证实了该算法在控制估计偏差方面更为有效,并在多个基准问题上实现了卓越的性能
Feb, 2020
本文介绍了创新的强化学习方法,重点是解决和利用演员 - 评论家方法中连续控制任务中的估计偏差,使用深度双 Q 学习。我们提出了两种新算法:期望延迟深度确定性策略梯度(ExpD3)和偏差利用 - 双延迟深度确定性策略梯度(BE-TD3)。ExpD3 旨在通过单个 $Q$ 估计值减少过高估计的偏差,从而在计算效率和性能之间取得平衡,而 BE-TD3 则旨在在训练过程中动态选择最有利的估计偏差。我们在各种连续控制任务上进行了广泛的实验,证明了我们方法的有效性。我们证明这些算法可以在估计偏差显著影响学习的环境中与现有方法(如 TD3)相匹配甚至超越。实验结果强调了利用偏差改进强化学习中的策略学习的重要性。
Feb, 2024
该论文提出了 Simultaneous Double Q-learning with Conservative Advantage Learning (SDQ-CAL) 算法,用于改善 Actor-critic Reinforcement Learning 在连续控制任务中的样本效率和过度估计偏差问题,并在连续控制基准测试中实现了最先进的性能。
May, 2022
本文探讨了一个新方法,通过分布式表示、截断和多评估器的集成,有助于减轻连续控制环境下的高估偏差,并在连续控制基准测试套件中获得了良好的成绩。
May, 2020
我们提出了一种新的 Q 学习变体,称为 2RA Q 学习,以有原则的方式解决现有 Q 学习方法的一些弱点。我们对最大期望值项提出了鲁棒分布估计器,从而可以精确控制引入的估计偏差水平。分布鲁棒估计器具备闭合解,因此所提出的算法每次迭代的计算成本与 Watkins 的 Q 学习可比。对于表格情况,我们证明 2RA Q 学习收敛到最优策略,并分析其渐近均方误差。最后,我们进行了各种设置的数值实验,证实了我们的理论发现,并表明 2RA Q 学习通常优于现有方法。
May, 2024
研究了在连续多智能体博弈中应用策略梯度方法时出现的相对过度泛化问题,并提出了多智能体软 Q 学习方法来解决这个问题。与现有方法 MADDPG 相比,该方法可实现更好的多智能体协作任务协调,达到联合行为空间中更好的局部最优。
Apr, 2018
该研究提出了一种新的无偏置、无重要性采样的两步离策略 Q 学习算法,并通过适当的假设证明,该算法的迭代是有界的,并且几乎肯定收敛于最优 Q 值。研究还探讨了两步 Q 学习的平滑版本的收敛性分析,即通过用对数 - 和 - 指数函数代替最大函数。该算法具有鲁棒性和易于实现性,并在基准问题上进行了实验验证,如轮盘问题、最大化偏置问题和随机生成的马尔可夫决策过程,并将其与现有文献中的方法进行了比较。数值实验证明了两步 Q 学习及其平滑变体的卓越性能。
Jul, 2024