正则化 Q 学习通过强健平均化

May, 2024

Regularized Q-learning through Robust Averaging

Peter Schmitt-Förster, Tobias Sutter

TL;DR我们提出了一种新的 Q 学习变体，称为 2RA Q 学习，以有原则的方式解决现有 Q 学习方法的一些弱点。我们对最大期望值项提出了鲁棒分布估计器，从而可以精确控制引入的估计偏差水平。分布鲁棒估计器具备闭合解，因此所提出的算法每次迭代的计算成本与 Watkins 的 Q 学习可比。对于表格情况，我们证明 2RA Q 学习收敛到最优策略，并分析其渐近均方误差。最后，我们进行了各种设置的数值实验，证实了我们的理论发现，并表明 2RA Q 学习通常优于现有方法。

Abstract

We propose a new q-learning variant, called 2RA q-learning, that addresses some weaknesses of existing q-learning methods in a principled

q-learning 2ra q-learning estimation bias distributionally robust estimator computational cost

发现论文，激发创造

实用鲁棒强化学习：邻域不确定性集和双代理算法

介绍了一种新的不确定性集合并基于此提出了一种名为 ARQ-Learning 的鲁棒强化学习方法，同时还提出一种能高效解决 ARQ-Learning 在大规模或连续状态空间下的问题的技术，最终将其应用于各种存在模型不确定性的强化学习应用中。

May, 2023

方差减少的分布鲁棒 Q 学习的样本复杂性

本论文提出了两种模型无关的算法，分别是分布鲁棒的 Q-learning 及其方差缩减的版本。这些算法可在处理分布移位时有效地学习强大的策略。在一系列数值实验中，这些算法的理论发现和效率得到了证实。

May, 2023

Maxmin Q-learning：控制 Q-learning 的估计偏差

本文提出 Maxmin Q-learning 算法来减少 Q-learning 中过高估计值的偏置，为了对偏置进行更好的控制，提出了一个可以灵活控制的参数，并经过实验证实了该算法在控制估计偏差方面更为有效，并在多个基准问题上实现了卓越的性能

Feb, 2020

连续强化学习中的双 Q 学习适应

提出了一种基于混合策略、利用两个独立网络来校正过度估计偏差的新方法，在少量 MuJoCo 环境上展示了有前景的接近 SOTA 的结果。

Sep, 2023

二步 Q-Learning

该研究提出了一种新的无偏置、无重要性采样的两步离策略 Q 学习算法，并通过适当的假设证明，该算法的迭代是有界的，并且几乎肯定收敛于最优 Q 值。研究还探讨了两步 Q 学习的平滑版本的收敛性分析，即通过用对数 - 和 - 指数函数代替最大函数。该算法具有鲁棒性和易于实现性，并在基准问题上进行了实验验证，如轮盘问题、最大化偏置问题和随机生成的马尔可夫决策过程，并将其与现有文献中的方法进行了比较。数值实验证明了两步 Q 学习及其平滑变体的卓越性能。

Jul, 2024

带模型不确定性的在线强化学习

本文提出了一种基于样本的方法来估计未知的不确定性集并设计了一种鲁棒 Q 学习算法和鲁棒 TDC 算法，可以在线上和增量的情况下实现，在不需要收敛性保证的情况下证明了 Q 学习算法收敛到最优的鲁棒 Q 函数，并证明了 TDC 算法渐近收敛到一些稳定点，在数值实验中进一步验证了算法的鲁棒性。

Sep, 2021

分布式强化学习的方差控制

基于分布式强化学习的新 Q 函数估计器和 QEMRL 算法通过误差分析和理论证明能够减小偏差和方差，并在 Atari 和 Mujoco 基准任务中显著提高了样本效率和收敛性能。

Jul, 2023

有界理性曲线下的鲁棒对抗强化学习

基于熵正则化的量子对抗增强学习 (QARL) 是一种新方法，通过渐进式增加对手的理性来简化优化问题的复杂性，从而提高稳健性以及在多个 MuJoCo 运动和导航问题上的整体性能。

Nov, 2023

自我校正 Q-Learning

本文介绍了一种新的自我校正 Q 学习算法，其通过平衡常规 Q-learning 中使用的单估计器的过高估计和 Double Q-learning 中使用的双估计器的低估计来解决最大化偏差问题，并提出了应用于 Deep Q Network 的 Self-correcting DQN 实现，在 Atari 2600 领域的多项任务中表现更好

Dec, 2020

单轨迹鲁棒分布式强化学习

提出了分布式鲁棒 Q 学习及其平均奖励变体，且在单轨迹训练的基础上，给出了渐近收敛保证和实验验证，证明其在扰动环境下的优越性。

Jan, 2023