介绍了一种名为期望资格追踪 (expected eligibility traces) 的新方法,相比之前的资格追踪方法,该方法可以更有效地解决强化学习中信用分配问题。
Jul, 2020
本文介绍了一种新型深度强化学习模型 Deep Recurrent Q-Network (DRQN),使用 recurrent LSTM 替换 DQN 的第一个后卷积全连接层,DRQN 在每个决策点只看到一个帧,但可以成功地通过时间积分信息,并且在标准的 Atari 游戏和部分不完整的游戏中表现出与 DQN 相似的性能,且在不同可观察性情况下 DRQN 的性能也随之变化。因此,recurrency 是 DQN 的一种可替代方式。
Jul, 2015
本研究提出了一种在不同 Atari 2600 游戏模式下进行强化学习泛化评估的方法,并证明 DQN 存在过度训练环境的问题;通过适当运用 dropout 和正则化,以及优化表示来提高泛化能力,有效提升 DQN 的样本效率。
Sep, 2018
使用海马体中的 theta 序列作为解决策略评估的方丈,可以在没有长期记忆的情况下进行授分,从而压缩行为并扩展短暂的神经记忆痕迹。
May, 2023
本文研究深度强化学习算法 DQN 在 Atari 2600 游戏中成功的关键,并提供一种通用的表示方法,以减轻对每个游戏进行表示学习的负担,并为未来 ALE 计算机学习领域提供了可复制和可比性的基准。
Dec, 2015
通过深度强化学习方法,利用软、硬注意力机制的扩展 DQN 算法,以 Atari 游戏为测试模型,表明其性能优于 DQN,并且内置的注意机制使得可以直接监控训练过程。
通过回溯模型和回溯的方式,可以在强化学习中发现更多高奖励状态,从而提高状态采样的效率。
Apr, 2018
我们介绍了对信用分配和政策评估挑战的新视角,并引入了双向值函数的概念,它可以同时考虑未来期望回报和过去累计回报,通过实验证明这种价值函数在增强政策评估过程中的有效性。
Dec, 2023
本文提出了一种基于 Transformer 和自注意力机制的全新架构 Deep Transformer Q-Networks(DTQN),可用于处理强化学习中的局部可见性、记忆和训练困难等问题,实验结果表明该模型相较于传统的循环神经网络方式在处理局部可视化任务时更加快速和稳定。
Jun, 2022
本研究使用深度神经网络进行强化学习,将人工反馈的目标作为奖励函数输入,并结合了专家演示与轨迹优先学习两种方法。实验在 9 个 Atari 游戏中超越了模仿学习的基线,并在其中 2 个游戏中获得了超人的表现,同时研究了奖励模型拟合度、奖励篡改问题和人类标签噪声的影响。
Nov, 2018