简化深度时序差异学习
本文介绍了一种新型深度强化学习模型Deep Recurrent Q-Network(DRQN),使用recurrent LSTM替换DQN的第一个后卷积全连接层,DRQN在每个决策点只看到一个帧,但可以成功地通过时间积分信息,并且在标准的Atari游戏和部分不完整的游戏中表现出与DQN相似的性能,且在不同可观察性情况下DRQN的性能也随之变化。因此,recurrency是DQN的一种可替代方式。
Jul, 2015
本篇论文提出了Q-Prop,一种结合策略梯度和离线强化学习的深度强化学习方法,该方法具有高效和稳定的特性,并在OpenAI Gym's MuJoCo连续控制环境上取得了比现有算法更好的性能。
Nov, 2016
本文提出了一种基于价值的深度强化学习的新的优化目标,通过增加模型学习组件来扩展传统的DQN,以产生一个转码器网络,学习环境模型和强化学习问题共享结构,该模型的预测误差被包含在基本DQN损失中作为额外的正则化项,改进了采样效率和性能。在Atari基准测试的20个游戏中,我们实验证明了我们的假设,获得了比基础DQN更好的结果。
Sep, 2018
本论文从算法和统计角度出发,对深度强化学习中的深度Q网络算法进行了理论分析,并给出了收敛速率。作者还提出了Minimax-DQN算法,并将其与马尔可夫博弈的Nash均衡进行收敛速率的比较。
Jan, 2019
该研究论文探讨了如何提高深度增强学习的数据效率,并证明了新提出的技术并没有真正提高数据效率,而是增加了复杂性和计算成本,提出了一种新的改进的DQN算法,并建议将其作为未来改进深度强化学习数据效率的基准。
Mar, 2020
本文研究了在强化学习中常用的 Q-learning 算法,在理论和实践之间的差距,并提出了两种改进方法,分别为 Q-Rex 和 Q-RexDaRe,这两个方法能够更有效地找到线性马尔科夫决策过程的最佳策略并提供了采样复杂度的非渐近界限。
Oct, 2021
我们提出了一种基于深度 Q 网络算法的记忆效率强化学习算法,通过从目标 Q 网络到当前 Q 网络合并知识,减少遗忘并保持高的样本效率。与基线方法相比,在特征和图像任务中取得了相当或更好的性能,同时减轻了大经验重放缓冲区的负担。
May, 2022
我们在深度Q学习中比较了Residual Gradient (RG)和Temporal Difference (TD),结果表明TD更优,同时我们还发现了强化学习和监督学习之间的一个关键差异,即小的Bellman残差误差可能对应一个不好的策略。我们进一步证明了TD中的缺失项是RG表现不佳的重要原因。我们的研究表明,深度Q学习的性能与训练动态密切相关,如何使用不完全梯度下降方法找到良好策略是未来研究的一个有趣领域。
May, 2022
通过一步将噪声转化为动作,我们提出了一种名为CPQL的新型时间效率方法,解决了扩散模型在更新时的时间效率和准确性指导方面的问题,从而实现了脱机强化学习的策略改进,并可以无缝地扩展到在线强化学习任务中,最终实验结果表明,CPQL在11个脱机任务和21个在线任务中取得了新的最高性能,推理速度相比Diffusion-QL提高了近45倍。
Oct, 2023