双 Q 学习的深度强化学习
本文介绍了一种新的自我校正 Q 学习算法,其通过平衡常规 Q-learning 中使用的单估计器的过高估计和 Double Q-learning 中使用的双估计器的低估计来解决最大化偏差问题,并提出了应用于 Deep Q Network 的 Self-correcting DQN 实现,在 Atari 2600 领域的多项任务中表现更好
Dec, 2020
本论文从算法和统计角度出发,对深度强化学习中的深度 Q 网络算法进行了理论分析,并给出了收敛速率。作者还提出了 Minimax-DQN 算法,并将其与马尔可夫博弈的 Nash 均衡进行收敛速率的比较。
Jan, 2019
本文研究深度强化学习算法 DQN 在 Atari 2600 游戏中成功的关键,并提供一种通用的表示方法,以减轻对每个游戏进行表示学习的负担,并为未来 ALE 计算机学习领域提供了可复制和可比性的基准。
Dec, 2015
本研究提出了一种在不同 Atari 2600 游戏模式下进行强化学习泛化评估的方法,并证明 DQN 存在过度训练环境的问题;通过适当运用 dropout 和正则化,以及优化表示来提高泛化能力,有效提升 DQN 的样本效率。
Sep, 2018
采用 Deep Q-Learning 算法,基于当前的交易信号和订单簿信息预测股票交易的最佳行动方案,并在九种不同的股票上进行了实验,在大多数股票上优于标准基准方法,且表现以超额收益率、超额率和收益 - 损失比为优。
Dec, 2018
该研究提出了一种基于 Double Q-learning 的算法来处理深度 Q-learning 和 actor-critic 算法中出现的过高估计的问题,在 OpenAI Gym 的测试中,该算法表现出优异的性能。
Feb, 2018
本文介绍了一种新颖的强化学习状态、动作和奖励函数的定义,它允许深度 Q 网络(DQN)学习控制优化超参数。我们使用经验重放的 Q 学习,训练两个 DQN 接受目标函数状态表示作为输入,并输出与学习率调整或保持不变的动作相关的预期折扣回报,即 q 值。训练的 DQN 结合基于梯度的更新例程构成了 Q - 梯度下降算法的基础。与传统的优化方法不同,Q - 梯度下降可以结合任何目标统计量,通过变化动作,我们可以深入了解成功的神经网络优化的学习率调整策略。
Feb, 2016
本文提出了一种基于 Max-Mean loss 的 DQN 框架 (M$^2$DQN),用于提高强化学习中数据效率的问题,并在几个 gym 游戏中的实验表明,与最广泛使用的技术 Double DQN (DDQN) 相比,该方法在学习速度和性能上都有显著改善。
Sep, 2022
本文研究使用深度神经网络作为函数逼近器来解决逼近真实世界复杂度的强化学习问题。同时,我们探讨了折扣因子在深度 Q 网络(DQN)学习过程中所起的作用,实验结果表明在逐渐增加折扣因子值的情况下,可以显著降低 DQN 学习步骤的数量。当与变动的学习率一起使用时,其在多项实验中均优于原始 DQN,并将这一现象与神经网络在近似于动态规划设置中的不稳定性联系起来,同时描述了在学习过程中可能陷入局部最优解的可能性,从而将我们的讨论与探索 / 利用困境联系起来。
Dec, 2015