优先重放与泛化之间的相互作用研究

Jul, 2024

优先重放与泛化之间的相互作用研究

Investigating the Interplay of Prioritized Replay and Generalization

Parham Mohammad Panahi, Andrew Patterson, Martha White, Adam White

TL;DR经验回放在强化学习中广泛应用，本论文通过研究多种优先级经验回放的变体，尝试理解优先级经验回放的适用性和效果。研究结果表明，在预测任务中，优先级经验回放可以改善表格设置中的值传播，但在与神经网络结合时存在显著区别。虽然一些缓解措施可以避免优先级经验回放和神经网络中出现大的误差峰值，但总体而言，它们通常不如均匀回放策略。在控制任务中，没有证据表明任何优先级变体能够一致地优于均匀回放。

Abstract

experience replay is ubiquitous in reinforcement learning, to reuse past data and improve sample efficiency. Though a variety of smart sampling schemes have been introduced to improve performance, uniform samplin

发现论文，激发创造

优先经验回放

本文介绍一种优先回放经验的机制，使用该机制在深度Q网络中进行增强学习，提高了在Atari游戏中的学习效率，超过了其他方法，成为了最新的最先进方法。

Nov, 2015

使用无似然权重的经验回放

本文提出了一种基于稳态分布概率的重要性重排经验的TD学习方法，使用无需概率密度函数的估算器来指定优先级权重，将此方法应用于两种竞争性强的学习算法（软演员-评论家（SAC）和Twin Delayed深度确定性策略梯度（TD3）），在一系列OpenAI gym任务中实现了比其他基线方法更高的样本复杂度。

Jun, 2020

损失函数与非均匀采样在经验重放中的等效性

本研究使用优先经验回放（PER）解决深度强化学习中样本分布不均衡问题，通过等价变换使得非均衡损失函数拥有与均衡损失函数相同的梯度，并在MuJoCo和Atari环境中验证了其优越性。

Jul, 2020

优先级别回放

本研究提出了一种名为PLR的新方法，在深度强化学习中使用优先级重放机制来选择下一个训练级别，通过适当的训练级别采样，PLR在Procgen基准测试上显著提高样本效率和泛化能力，并超过了以前的最佳结果。

Oct, 2020

大批次经验回放

本文将回放缓冲区采样问题看作梯度估计的重要采样问题，并提出了一种新的采样方案LaBER，与DQN、分布式RL和actor-critic方法相结合，能够在Atari游戏和PyBullet环境中提供比其他优先级方案更好的性能。

Oct, 2021

可减损失下的强化学习样本优先级

本文提出了一种基于可学习性的样本优先级算法，能够更好地在经验回放中利用重要样本，并证明该算法优于随机抽样和传统的以训练损失率为优先级指标的方法。

Aug, 2022

演员优先的经验回放

本文提出了一种新的经验回放采样框架，旨在解决深度强化学习模型 Prioritized Experience Replay (PER) 在连续控制任务上表现不佳的问题，同时还解决了 POLICY GRADIENT 问题和稳定性问题。在 extensive set of experiments 上证明该方法比现有算法表现更好。

Sep, 2022

强化学习中多样化回放的泛化作用

本研究通过理论和实证方法，探讨从不同角度对多任务强化学习的泛化性能进行提升，发现增加回放缓冲区中的转换的多样性有助于提高对训练期间“可达”和“不可达”状态的泛化能力和潜在表示的泛化能力。

Jun, 2023

CUER：适用于离策略连续深度强化学习算法的修正统一体验重播

本文提出了一种新算法CUER，该算法在考虑所有其他经验的公平性的同时，通过使采样状态分布更接近于策略，以解决经验回放中转换重要性动态调整的问题，从而在样本效率、最终性能和训练期间策略的稳定性方面显著提高离策略连续控制算法。

Jun, 2024

ROER：正则化的最优体验回放

在线强化学习中，经验回放是其成功的关键组成部分。本文提出了一种基于时间差异错误的经验重新加权策略，并通过使用KL散度作为正则化器将其优化为一种新形式的最优经验回放策略，得到了出色的实验结果。

Jul, 2024