同时双 Q 学习的有限时间分析

Jun, 2024

Finite-Time Analysis of Simultaneous Double Q-learning

Hyunjun Na, Donghwan Lee

TL;DR该论文提出了一种改良的双 $Q$- 学习方法，称为同步双 $Q$- 学习（SDQ），并通过有限时间分析展示了其性能。SDQ 消除了在两个 $Q$- 估计器之间的随机选择，这种改进使得我们可以通过一种新颖的切换系统框架来分析双 $Q$- 学习，从而有助于进行高效的有限时间分析。实证研究表明，与双 $Q$- 学习相比，SDQ 收敛更快，同时保留了降低最大化偏差的能力。最后，我们推导了 SDQ 的有限时间预期误差界限。

Abstract

$Q$-learning is one of the most fundamental reinforcement learning (RL) algorithms. Despite its widespread success in various applications, it is prone to overestimation bias in the $Q$-learning update. To addres

$q$-learning reinforcement learning overestimation bias double $q$-learning simultaneous double $q$-learning

发现论文，激发创造

带有保守优势学习的同时双 Q 学习对演员 - 评论家方法的应用

该论文提出了 Simultaneous Double Q-learning with Conservative Advantage Learning (SDQ-CAL) 算法，用于改善 Actor-critic Reinforcement Learning 在连续控制任务中的样本效率和过度估计偏差问题，并在连续控制基准测试中实现了最先进的性能。

May, 2022

自我校正 Q-Learning

本文介绍了一种新的自我校正 Q 学习算法，其通过平衡常规 Q-learning 中使用的单估计器的过高估计和 Double Q-learning 中使用的双估计器的低估计来解决最大化偏差问题，并提出了应用于 Deep Q Network 的 Self-correcting DQN 实现，在 Atari 2600 领域的多项任务中表现更好

Dec, 2020

软 Q 学习的有限时间误差分析：切换系统方法

本文旨在通过使用动态切换系统模型，针对两种 soft Q-learning 算法 (一种利用 log-sum-exp 操作符，另一种利用 Boltzmann 操作符)，提出新颖的有限时间控制论分析。我们希望通过与切换系统模型建立联系，加深对 soft Q-learning 的理解，并为其他强化学习算法的有限时间分析铺平道路。

Mar, 2024

双 Q 学习的深度强化学习

本文针对 DQN 算法中 Q-learning 超估计行动价值的问题，提出了 Double Q-learning 算法，通过将其与深度神经网络结合得到了一种新的算法，并在数个游戏里得到了更好的表现。

Sep, 2015

异步 Q 学习在控制理论视角下的有限时间分析（随着步长逐渐缩小）

本文研究了异步 Q-learning 在 Markov 观测模型下的有限时间分析，介绍了与离散时间切换系统模型相连的收敛速率，并提出了新的简化模板以深入了解 Q-learning。

Jul, 2022

零和随机博弈中带有函数逼近的两时间尺度 Q-Learning

我们提出了一种两时间尺度 Q 学习算法，采用函数逼近，以找到两个玩家之间公平、收敛、理性且对称的纳什均衡。我们的方法在线性函数逼近的特殊情况下，建立了无限采样边界，从而对这类随机博弈中收敛到纳什均衡所需的样本量提供了多项式的上界。

Dec, 2023

异步随机逼近与 Q 学习的有限时间分析

研究了一种异步随机逼近算法，并证明了在单轨迹上其有限时间收敛速率的上限，具体的将其应用到异步 Q-learning 中，得到了和同步 Q-learning 相同水平、优于先前已知的异步 Q-learning 的速率上限。

Feb, 2020

连续强化学习中的双 Q 学习适应

提出了一种基于混合策略、利用两个独立网络来校正过度估计偏差的新方法，在少量 MuJoCo 环境上展示了有前景的接近 SOTA 的结果。

Sep, 2023

基于神经网络函数逼近的 Q 学习的有限时间分析

本文提出了一种有限时间的神经 Q 学习算法，其中数据是从 Markov 决策过程中生成的，动作价值函数由 Deep ReLU 神经网络逼近，我们证明了如果神经功能逼近器被足够过度参数化，神经 Q 学习可以找到具有 O（1 / 根号 T）收敛速度的最优策略，并且该结果是对非 i.i.d 数据假设的首次有限时间分析。

Dec, 2019

分布式 Q-learning 的有限时间分析

多智能体强化学习在分布式 Q 学习场景中的有限时间分析及样本复杂度结果

May, 2024