深度关注递归 Q 网络
本文研究深度强化学习算法 DQN 在 Atari 2600 游戏中成功的关键,并提供一种通用的表示方法,以减轻对每个游戏进行表示学习的负担,并为未来 ALE 计算机学习领域提供了可复制和可比性的基准。
Dec, 2015
本文提出了一种基于 Transformer 和自注意力机制的全新架构 Deep Transformer Q-Networks(DTQN),可用于处理强化学习中的局部可见性、记忆和训练困难等问题,实验结果表明该模型相较于传统的循环神经网络方式在处理局部可视化任务时更加快速和稳定。
Jun, 2022
通过在任何卷积神经网络的弱监督生成中间注意力图的机制上进行改进,揭示了注意力模块的有效性,提出了一种元质疑网络,并结合强化学习的方法进行优化,从而提高了注意力模块的表达能力,并在分类和实例识别基准测试上进行了广泛的实验验证。
Jul, 2020
本文利用强化学习和软注意机制结合的 Deep Q-Network 模型教导代理人玩游戏时关注视觉输入的最相关部分,并通过在多个 Atari 2600 游戏上的评估,证明软注意力模型可以比 Itti-Kochs 显著地预测焦点位置。
Dec, 2016
本文介绍了一种使用卷积神经网络和增强学习从高维感知输入中直接学习控制策略的深度学习模型,并将其应用于七个 Atari 2600 游戏中,发现在 6 个游戏上优于以往的方法,在其中三个游戏中超过了人类专家。
Dec, 2013
在这项研究中,提出了一种最新的灵活深度 Q 网络 (FDQN) 框架,能够通过自适应方法在动态环境中处理高维度感知数据,实时进行决策,并动态调整模型结构以适应不同游戏环境的行动空间,相对于基准模型,在各种 Atari 游戏和 Chrome Dino 游戏中取得优异表现。该框架采用 epsilon-greedy 策略有效平衡新的学习和探索,其模块化结构可以轻松应用于其他基于 HTML 的游戏,同时提到了该框架在实验室条件下成功解决了一个明确定义的任务,并探讨了其在更具挑战的真实世界情境和自动化游戏玩法等领域的潜在应用。
May, 2024
本文介绍了一种新型深度强化学习模型 Deep Recurrent Q-Network (DRQN),使用 recurrent LSTM 替换 DQN 的第一个后卷积全连接层,DRQN 在每个决策点只看到一个帧,但可以成功地通过时间积分信息,并且在标准的 Atari 游戏和部分不完整的游戏中表现出与 DQN 相似的性能,且在不同可观察性情况下 DRQN 的性能也随之变化。因此,recurrency 是 DQN 的一种可替代方式。
Jul, 2015
本文提出了一种基于生物学启发的强化学习算法 Episodic Memory Deep Q-Networks(EMDQN),该算法利用情节内存来监督代理在训练过程中,实验表明我们提出的方法可以提高样本效率,更容易找到好策略,在 Atari 游戏上只需要 1/5 的交互就能达到许多具有最先进性能的情况,明显优于常规 DQN 和其他情节记忆基 RL 算法。
May, 2018
该研究提出将深度 Q 学习神经网络引入艺术绘画机器人应用程序,旨在研究复杂控制策略对基础艺术绘画机器人应用程序性能的影响,并为将 DQN 方法引入复杂艺术绘画机器人框架的未来研究提供了首个基准。
Feb, 2024
本文提出了一种可解释的神经网络架构,用于 Q-learning,在全局层面上使用键值记忆、注意力和可重构嵌入,提供模型行为的全局解释。使用有向探索策略,该模型可以达到与最先进的深度 Q-learning 模型相当的训练奖励,但结果表明该神经网络提取的特征非常浅,并且使用样本外的示例进行后续测试表明代理可以轻松地过拟合训练期间看到的轨迹。
Sep, 2018