双 Q 学习的深度强化学习

AAAISep, 2015

Deep Reinforcement Learning with Double Q-learning

Hado van Hasselt, Arthur Guez, David Silver

TL;DR本文针对 DQN 算法中 Q-learning 超估计行动价值的问题，提出了 Double Q-learning 算法，通过将其与深度神经网络结合得到了一种新的算法，并在数个游戏里得到了更好的表现。

Abstract

The popular q-learning algorithm is known to overestimate action values under certain conditions. It was not previously known whether, in practice, such overestimations are common, whether they harm performance, and whether they can generally be prevented. In this paper, we answer all

q-learning dqn algorithm double q-learning neural network atari 2600 domain

发现论文，激发创造

自我校正 Q-Learning

本文介绍了一种新的自我校正 Q 学习算法，其通过平衡常规 Q-learning 中使用的单估计器的过高估计和 Double Q-learning 中使用的双估计器的低估计来解决最大化偏差问题，并提出了应用于 Deep Q Network 的 Self-correcting DQN 实现，在 Atari 2600 领域的多项任务中表现更好

Dec, 2020

连续强化学习中的双 Q 学习适应

提出了一种基于混合策略、利用两个独立网络来校正过度估计偏差的新方法，在少量 MuJoCo 环境上展示了有前景的接近 SOTA 的结果。

Sep, 2023

深度 Q 学习的理论分析

本论文从算法和统计角度出发，对深度强化学习中的深度 Q 网络算法进行了理论分析，并给出了收敛速率。作者还提出了 Minimax-DQN 算法，并将其与马尔可夫博弈的 Nash 均衡进行收敛速率的比较。

Jan, 2019

使用浅层强化学习技术控制 Atari 游戏的现状

本文研究深度强化学习算法 DQN 在 Atari 2600 游戏中成功的关键，并提供一种通用的表示方法，以减轻对每个游戏进行表示学习的负担，并为未来 ALE 计算机学习领域提供了可复制和可比性的基准。

Dec, 2015

DQN 中的泛化和正则化

本研究提出了一种在不同 Atari 2600 游戏模式下进行强化学习泛化评估的方法，并证明 DQN 存在过度训练环境的问题；通过适当运用 dropout 和正则化，以及优化表示来提高泛化能力，有效提升 DQN 的样本效率。

Sep, 2018

双重深度 Q 学习用于最优执行

采用 Deep Q-Learning 算法，基于当前的交易信号和订单簿信息预测股票交易的最佳行动方案，并在九种不同的股票上进行了实验，在大多数股票上优于标准基准方法，且表现以超额收益率、超额率和收益 - 损失比为优。

Dec, 2018

Actor-Critic 方法中的函数逼近误差处理

该研究提出了一种基于 Double Q-learning 的算法来处理深度 Q-learning 和 actor-critic 算法中出现的过高估计的问题，在 OpenAI Gym 的测试中，该算法表现出优异的性能。

Feb, 2018

使用深度 Q-Learning 控制优化超参数

本文介绍了一种新颖的强化学习状态、动作和奖励函数的定义，它允许深度 Q 网络（DQN）学习控制优化超参数。我们使用经验重放的 Q 学习，训练两个 DQN 接受目标函数状态表示作为输入，并输出与学习率调整或保持不变的动作相关的预期折扣回报，即 q 值。训练的 DQN 结合基于梯度的更新例程构成了 Q - 梯度下降算法的基础。与传统的优化方法不同，Q - 梯度下降可以结合任何目标统计量，通过变化动作，我们可以深入了解成功的神经网络优化的学习率调整策略。

Feb, 2016

M$^2$DQN: 一种加速深度 Q 学习网络的强健算法

本文提出了一种基于 Max-Mean loss 的 DQN 框架 (M$^2$DQN)，用于提高强化学习中数据效率的问题，并在几个 gym 游戏中的实验表明，与最广泛使用的技术 Double DQN (DDQN) 相比，该方法在学习速度和性能上都有显著改善。

Sep, 2022

如何折扣深度强化学习：走向新的动态策略

本文研究使用深度神经网络作为函数逼近器来解决逼近真实世界复杂度的强化学习问题。同时，我们探讨了折扣因子在深度 Q 网络（DQN）学习过程中所起的作用，实验结果表明在逐渐增加折扣因子值的情况下，可以显著降低 DQN 学习步骤的数量。当与变动的学习率一起使用时，其在多项实验中均优于原始 DQN，并将这一现象与神经网络在近似于动态规划设置中的不稳定性联系起来，同时描述了在学习过程中可能陷入局部最优解的可能性，从而将我们的讨论与探索 / 利用困境联系起来。

Dec, 2015