用深度 Transformer Q 网络进行部分可观察强化学习
本文介绍了一种新型深度强化学习模型 Deep Recurrent Q-Network (DRQN),使用 recurrent LSTM 替换 DQN 的第一个后卷积全连接层,DRQN 在每个决策点只看到一个帧,但可以成功地通过时间积分信息,并且在标准的 Atari 游戏和部分不完整的游戏中表现出与 DQN 相似的性能,且在不同可观察性情况下 DRQN 的性能也随之变化。因此,recurrency 是 DQN 的一种可替代方式。
Jul, 2015
提出了 Action-specific Deep Recurrent Q-Network (ADRQN) 的新体系结构,该体系结构使用 LSTM 层来学习潜在状态,以增强在多个部分可观察领域的学习性能,包括 Atari 游戏。
Apr, 2018
通过深度强化学习方法,利用软、硬注意力机制的扩展 DQN 算法,以 Atari 游戏为测试模型,表明其性能优于 DQN,并且内置的注意机制使得可以直接监控训练过程。
Dec, 2015
本文提出了一种基于 Q-learning 的深度强化学习方法 ——Action Q-Transformer (AQT),它引入了一个 Transformer 编码器 - 解码器结构来实现对代理决策的高度可解释性。我们利用 AQT 在 Atari 游戏任务中实现了代理的决策详细分析,并通过实验结果证明了该方法在某些游戏中可以实现比基线更高的性能。
Jun, 2023
这篇论文提出了一种引入储备计算的重放记忆方法,在这种方法中,使用多层神经网络作为读出层可以提高基于递归神经网络的强化学习在四种控制任务中的学习性能。
Mar, 2022
本文提出了一种可解释的神经网络架构,用于 Q-learning,在全局层面上使用键值记忆、注意力和可重构嵌入,提供模型行为的全局解释。使用有向探索策略,该模型可以达到与最先进的深度 Q-learning 模型相当的训练奖励,但结果表明该神经网络提取的特征非常浅,并且使用样本外的示例进行后续测试表明代理可以轻松地过拟合训练期间看到的轨迹。
Sep, 2018
本文介绍了使用量子循环神经网络和深度 Q-learning 算法来解决部分可观察环境中的量子强化学习问题,并且在数值模拟中证明了该方法在标准基准测试如 Cart-Pole 中的结果比经典 DRQN 更加稳定和具有更高的平均分数。
Oct, 2022
本文介绍了 TrMRL,这是一种运用 Transformer 架构的基于元强化学习的代理(Meta-Reinforcement Learning Algorithm),它结合了最近的工作内存以递归方式构建情境记忆,并利用 self-attention 机制计算和提供有意义的特征以执行最佳任务。研究表明,在高维连续控制环境下,TrMRL 相对于基线模型表现出了相当或优异的收敛性能、采样效率和超出分布范围的概况。
Jun, 2022
本文提出了一种基于生物学启发的强化学习算法 Episodic Memory Deep Q-Networks(EMDQN),该算法利用情节内存来监督代理在训练过程中,实验表明我们提出的方法可以提高样本效率,更容易找到好策略,在 Atari 游戏上只需要 1/5 的交互就能达到许多具有最先进性能的情况,明显优于常规 DQN 和其他情节记忆基 RL 算法。
May, 2018