探究深度 Q 网络中的重复和资格迹

NIPSApr, 2017

探究深度 Q 网络中的重复和资格迹

Investigating Recurrence and Eligibility Traces in Deep Q-Networks

Jean Harb, Doina Precup

TL;DR本文研究了资格追踪在 Atari 游戏中和循环神经网络相结合的应用，展示了循环网络和资格追踪在 Atari 游戏中的优势，并强调了训练中所使用的优化的重要性。

Abstract

eligibility traces in reinforcement learning are used as a bias-variance trade-off and can often speed up training time by propagating knowledge back over time-steps in a single update. We investigate the use of

eligibility traces reinforcement learning recurrent networks atari games optimization

发现论文，激发创造

预期资格追踪

介绍了一种名为期望资格追踪 (expected eligibility traces) 的新方法，相比之前的资格追踪方法，该方法可以更有效地解决强化学习中信用分配问题。

Jul, 2020

部分可观察 MDPs 的深度循环 Q 学习

本文介绍了一种新型深度强化学习模型 Deep Recurrent Q-Network (DRQN)，使用 recurrent LSTM 替换 DQN 的第一个后卷积全连接层，DRQN 在每个决策点只看到一个帧，但可以成功地通过时间积分信息，并且在标准的 Atari 游戏和部分不完整的游戏中表现出与 DQN 相似的性能，且在不同可观察性情况下 DRQN 的性能也随之变化。因此，recurrency 是 DQN 的一种可替代方式。

Jul, 2015

DQN 中的泛化和正则化

本研究提出了一种在不同 Atari 2600 游戏模式下进行强化学习泛化评估的方法，并证明 DQN 存在过度训练环境的问题；通过适当运用 dropout 和正则化，以及优化表示来提高泛化能力，有效提升 DQN 的样本效率。

Sep, 2018

Theta 序列作为资格跟踪：信用分配的生物学解决方案

使用海马体中的 theta 序列作为解决策略评估的方丈，可以在没有长期记忆的情况下进行授分，从而压缩行为并扩展短暂的神经记忆痕迹。

May, 2023

使用浅层强化学习技术控制 Atari 游戏的现状

本文研究深度强化学习算法 DQN 在 Atari 2600 游戏中成功的关键，并提供一种通用的表示方法，以减轻对每个游戏进行表示学习的负担，并为未来 ALE 计算机学习领域提供了可复制和可比性的基准。

Dec, 2015

深度关注递归 Q 网络

通过深度强化学习方法，利用软、硬注意力机制的扩展 DQN 算法，以 Atari 游戏为测试模型，表明其性能优于 DQN，并且内置的注意机制使得可以直接监控训练过程。

Dec, 2015

回溯模型：高效强化学习追溯痕迹

通过回溯模型和回溯的方式，可以在强化学习中发现更多高奖励状态，从而提高状态采样的效率。

Apr, 2018

从过去到未来：重新思考资格追踪

我们介绍了对信用分配和政策评估挑战的新视角，并引入了双向值函数的概念，它可以同时考虑未来期望回报和过去累计回报，通过实验证明这种价值函数在增强政策评估过程中的有效性。

Dec, 2023

用深度 Transformer Q 网络进行部分可观察强化学习

本文提出了一种基于 Transformer 和自注意力机制的全新架构 Deep Transformer Q-Networks（DTQN），可用于处理强化学习中的局部可见性、记忆和训练困难等问题，实验结果表明该模型相较于传统的循环神经网络方式在处理局部可视化任务时更加快速和稳定。

Jun, 2022

在 Atari 中从人类偏好和演示中进行奖励学习

本研究使用深度神经网络进行强化学习，将人工反馈的目标作为奖励函数输入，并结合了专家演示与轨迹优先学习两种方法。实验在 9 个 Atari 游戏中超越了模仿学习的基线，并在其中 2 个游戏中获得了超人的表现，同时研究了奖励模型拟合度、奖励篡改问题和人类标签噪声的影响。

Nov, 2018