连续强化学习中的双 Q 学习适应

Sep, 2023

Adapting Double Q-Learning for Continuous Reinforcement Learning

Arsenii Kuznetsov

TL;DR提出了一种基于混合策略、利用两个独立网络来校正过度估计偏差的新方法，在少量 MuJoCo 环境上展示了有前景的接近 SOTA 的结果。

Abstract

Majority of off-policy reinforcement learning algorithms use overestimation bias control techniques. Most of these techniques rooted in heuristics, primarily addressing the consequences of overestimation rather than its fundamental origins. In this work we present a novel approach to t

off-policy reinforcement learning overestimation bias control techniques double q-learning mixture policy mujoco environments

发现论文，激发创造

自我校正 Q-Learning

本文介绍了一种新的自我校正 Q 学习算法，其通过平衡常规 Q-learning 中使用的单估计器的过高估计和 Double Q-learning 中使用的双估计器的低估计来解决最大化偏差问题，并提出了应用于 Deep Q Network 的 Self-correcting DQN 实现，在 Atari 2600 领域的多项任务中表现更好

Dec, 2020

处理成本和约束的离策略深度强化学习

混合符号奖励环境中，重新考虑原有策略更新方法的安全性，通过解决数值估计误差的问题和不显式地最大化 Q 值的方法，提出了新的离策略演员 - 评论家方法，以提高深度强化学习算法在连续动作空间中的学习效果。

Nov, 2023

双 Q 学习的深度强化学习

本文针对 DQN 算法中 Q-learning 超估计行动价值的问题，提出了 Double Q-learning 算法，通过将其与深度神经网络结合得到了一种新的算法，并在数个游戏里得到了更好的表现。

Sep, 2015

Maxmin Q-learning：控制 Q-learning 的估计偏差

本文提出 Maxmin Q-learning 算法来减少 Q-learning 中过高估计值的偏置，为了对偏置进行更好的控制，提出了一个可以灵活控制的参数，并经过实验证实了该算法在控制估计偏差方面更为有效，并在多个基准问题上实现了卓越的性能

Feb, 2020

深度双 Q 学习在演员评论方法中的估计偏差利用

本文介绍了创新的强化学习方法，重点是解决和利用演员 - 评论家方法中连续控制任务中的估计偏差，使用深度双 Q 学习。我们提出了两种新算法：期望延迟深度确定性策略梯度（ExpD3）和偏差利用 - 双延迟深度确定性策略梯度（BE-TD3）。ExpD3 旨在通过单个 $Q$ 估计值减少过高估计的偏差，从而在计算效率和性能之间取得平衡，而 BE-TD3 则旨在在训练过程中动态选择最有利的估计偏差。我们在各种连续控制任务上进行了广泛的实验，证明了我们方法的有效性。我们证明这些算法可以在估计偏差显著影响学习的环境中与现有方法（如 TD3）相匹配甚至超越。实验结果强调了利用偏差改进强化学习中的策略学习的重要性。

Feb, 2024

带有保守优势学习的同时双 Q 学习对演员 - 评论家方法的应用

该论文提出了 Simultaneous Double Q-learning with Conservative Advantage Learning (SDQ-CAL) 算法，用于改善 Actor-critic Reinforcement Learning 在连续控制任务中的样本效率和过度估计偏差问题，并在连续控制基准测试中实现了最先进的性能。

May, 2022

截断连续分布分位数评论家混合来控制高估偏差

本文探讨了一个新方法，通过分布式表示、截断和多评估器的集成，有助于减轻连续控制环境下的高估偏差，并在连续控制基准测试套件中获得了良好的成绩。

May, 2020

正则化 Q 学习通过强健平均化

我们提出了一种新的 Q 学习变体，称为 2RA Q 学习，以有原则的方式解决现有 Q 学习方法的一些弱点。我们对最大期望值项提出了鲁棒分布估计器，从而可以精确控制引入的估计偏差水平。分布鲁棒估计器具备闭合解，因此所提出的算法每次迭代的计算成本与 Watkins 的 Q 学习可比。对于表格情况，我们证明 2RA Q 学习收敛到最优策略，并分析其渐近均方误差。最后，我们进行了各种设置的数值实验，证实了我们的理论发现，并表明 2RA Q 学习通常优于现有方法。

May, 2024

多智能体软 Q 学习

研究了在连续多智能体博弈中应用策略梯度方法时出现的相对过度泛化问题，并提出了多智能体软 Q 学习方法来解决这个问题。与现有方法 MADDPG 相比，该方法可实现更好的多智能体协作任务协调，达到联合行为空间中更好的局部最优。

Apr, 2018

二步 Q-Learning

该研究提出了一种新的无偏置、无重要性采样的两步离策略 Q 学习算法，并通过适当的假设证明，该算法的迭代是有界的，并且几乎肯定收敛于最优 Q 值。研究还探讨了两步 Q 学习的平滑版本的收敛性分析，即通过用对数 - 和 - 指数函数代替最大函数。该算法具有鲁棒性和易于实现性，并在基准问题上进行了实验验证，如轮盘问题、最大化偏置问题和随机生成的马尔可夫决策过程，并将其与现有文献中的方法进行了比较。数值实验证明了两步 Q 学习及其平滑变体的卓越性能。

Jul, 2024