Atari深度强化学习中数据效率评估需使用适当的基线
本文通过详尽的消融研究,考察了6种方法扩展DQN算法,实验结果表明这些方法的综合应用取得了Atari 2600基准测试最先进的性能,在数据效率和最终性能方面都取得了显著的改善。
Oct, 2017
本文提出了一种基于价值的深度强化学习的新的优化目标,通过增加模型学习组件来扩展传统的DQN,以产生一个转码器网络,学习环境模型和强化学习问题共享结构,该模型的预测误差被包含在基本DQN损失中作为额外的正则化项,改进了采样效率和性能。在Atari基准测试的20个游戏中,我们实验证明了我们的假设,获得了比基础DQN更好的结果。
Sep, 2018
本论文从算法和统计角度出发,对深度强化学习中的深度Q网络算法进行了理论分析,并给出了收敛速率。作者还提出了Minimax-DQN算法,并将其与马尔可夫博弈的Nash均衡进行收敛速率的比较。
Jan, 2019
本论文对多步方法在深度强化学习中的表现进行了测试和分析,将包括Retrace和Q-learning等等在内的各种算法与DQN进行比较,在山车环境下进行了许多测试,指出需要注意调整backup length参数和target network更新的频率等细节来提高Q-learning等算法的性能。
Jan, 2019
通过引入辅助损失以及消除后效性的影响,提出了一种简单且有效的方法,可以在MuJoCo控制任务上匹配最新的无模型和有模型算法,同时在观测噪声下表现出鲁棒性,并且过来了以往使用变分自动编码器所面临的发散问题。
Oct, 2019
本文讨论在计算资源不足的情况下,重点研究小规模环境对于强化学习的科学洞见和降低贫困社区进入门槛的重要性,并通过更深入的研究Rainbow算法来证实此论点。
Nov, 2020
本研究从经验重放和模型的角度出发,对Deep Q-Network算法中回放量的变化对样本效率和算法健壮性的影响进行了系统性研究,在Mountain Car环境下获得了提高样本效率、降低性能波动、提高算法鲁棒性的结果,为算法应用方面提供了新的思路。
Feb, 2023
本论文研究了使用Q-learning和TD算法训练深度强化学习模型时的稳定性问题,并提出了一种无需目标网络即可收敛的TD算法PQN,该算法可以在不牺牲样本效率的情况下比传统DQN算法快50倍,使Q-learning再次成为RL算法的可行替代方案。
Jul, 2024
当代强化学习研究已广泛采用策略梯度方法作为解决学习问题的万能方法,然而只要我们能高效地利用它们,基于价值的方法在许多领域仍然有用。本文探讨了DQNs在强化学习中的混沌性质,同时理解了当训练时它们所保留的信息如何被改造用于适应不同任务的模型。我们从设计一个简单的实验开始,观察环境中每个状态和动作的Q值。然后我们通过不同的训练方式进行训练,探索这些训练算法如何影响准确学习(或未学习)Q值的方式。我们测试了每个训练模型在重新训练以完成稍微改变的任务时的适应性。然后我们扩展实验设置,测试一个无保护路口上的自动驾驶问题。我们观察到,当基础模型的Q值估计接近真实Q值时,模型能更快地适应新任务。结果提供了一些关于哪些算法对于高效适应任务有用的见解和指导。
Jul, 2024
本研究针对在线强化学习方法在资源受限或模拟环境中对实时数据的高需求这一问题,提出了一个框架,将扩散模型与近端策略优化算法结合,以生成高质量的虚拟轨迹,从而增强样本效率和探索性。实验结果表明,该方法在复杂任务中显著提升了累积奖励、收敛速度和策略稳定性,为高维复杂任务中的强化学习提供了新的理论与实践方法。
Sep, 2024