深度 Q 学习的理论分析
该论文通过理论分析探讨了深度强化学习中的深度 Q 网络(DQN)和 ε- 贪心探索。论文提供了对实际情况下采用 ε- 贪心策略的 DQN 的首个理论收敛性和样本复杂度分析,并证明了带有递减 ε 的迭代过程能够几何收敛到最优 Q 值函数。实验验证了论文中得出的理论结论对 DQN 的有效性。
Oct, 2023
本文针对 DQN 算法中 Q-learning 超估计行动价值的问题,提出了 Double Q-learning 算法,通过将其与深度神经网络结合得到了一种新的算法,并在数个游戏里得到了更好的表现。
Sep, 2015
本文介绍了一种新颖的强化学习状态、动作和奖励函数的定义,它允许深度 Q 网络(DQN)学习控制优化超参数。我们使用经验重放的 Q 学习,训练两个 DQN 接受目标函数状态表示作为输入,并输出与学习率调整或保持不变的动作相关的预期折扣回报,即 q 值。训练的 DQN 结合基于梯度的更新例程构成了 Q - 梯度下降算法的基础。与传统的优化方法不同,Q - 梯度下降可以结合任何目标统计量,通过变化动作,我们可以深入了解成功的神经网络优化的学习率调整策略。
Feb, 2016
本文提出了一种有限时间的神经 Q 学习算法,其中数据是从 Markov 决策过程中生成的,动作价值函数由 Deep ReLU 神经网络逼近,我们证明了如果神经功能逼近器被足够过度参数化,神经 Q 学习可以找到具有 O(1 / 根号 T)收敛速度的最优策略,并且该结果是对非 i.i.d 数据假设的首次有限时间分析。
Dec, 2019
这篇论文研究了高维情境下的强化学习,提出了两种基于乐观法和后验采样的算法来解决此问题,并扩展了该方法应用在深度强化学习上,所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式,使其能够充分平衡探索与执行间的权衡,更加有效地应用在 Atari 游戏中。
Feb, 2018
本文研究深度强化学习算法 DQN 在 Atari 2600 游戏中成功的关键,并提供一种通用的表示方法,以减轻对每个游戏进行表示学习的负担,并为未来 ALE 计算机学习领域提供了可复制和可比性的基准。
Dec, 2015
通过统计学习理论的框架,我们理论上证实了深度 Q 学习在捕捉奖励的特殊属性上表现优秀,进而证明了深度 Q 学习优于传统 Q 学习的泛化误差边界,并在供应链管理中的知名啤酒游戏和模拟推荐系统中验证了我们的理论断言。
Oct, 2023
本文研究了一类混合量子 - 经典强化学习算法 VQ-DQN,发现其容易受到不稳定性的影响。实验结果表明,尽管有观点认为量子计算可以比经典方法更具优势,但无法确定这种优势。</br>
Feb, 2022
本文提出了一种可解释的神经网络架构,用于 Q-learning,在全局层面上使用键值记忆、注意力和可重构嵌入,提供模型行为的全局解释。使用有向探索策略,该模型可以达到与最先进的深度 Q-learning 模型相当的训练奖励,但结果表明该神经网络提取的特征非常浅,并且使用样本外的示例进行后续测试表明代理可以轻松地过拟合训练期间看到的轨迹。
Sep, 2018
本文研究使用深度神经网络作为函数逼近器来解决逼近真实世界复杂度的强化学习问题。同时,我们探讨了折扣因子在深度 Q 网络(DQN)学习过程中所起的作用,实验结果表明在逐渐增加折扣因子值的情况下,可以显著降低 DQN 学习步骤的数量。当与变动的学习率一起使用时,其在多项实验中均优于原始 DQN,并将这一现象与神经网络在近似于动态规划设置中的不稳定性联系起来,同时描述了在学习过程中可能陷入局部最优解的可能性,从而将我们的讨论与探索 / 利用困境联系起来。
Dec, 2015