ROER:正则化的最优体验回放
提出了一种新的经验回放优化 (ERO) 框架来优化累积奖励,此方案交替更新两种策略:代理策略和回放策略,其中代理策略基于回放数据最大化累积奖励,而回放策略则提供代理经验最有用的经验,实验表明,此方案可以改进离线策略强化学习算法的性能。
Jun, 2019
本文提出了一种基于稳态分布概率的重要性重排经验的TD学习方法,使用无需概率密度函数的估算器来指定优先级权重,将此方法应用于两种竞争性强的学习算法(软演员-评论家(SAC)和Twin Delayed深度确定性策略梯度(TD3)),在一系列OpenAI gym任务中实现了比其他基线方法更高的样本复杂度。
Jun, 2020
本文通过系统的分析和研究体验回放在 Q-learning 方法中的两个基本性质:回放容量和学习更新与经验收集的比率(回放比),颠覆了关于经验回放的传统认识。同时,本文也测量了控制回放比的重要性,并对表现优秀的算法进行了一系列的测试。
Jul, 2020
本研究提出了一种名为PLR的新方法,在深度强化学习中使用优先级重放机制来选择下一个训练级别,通过适当的训练级别采样,PLR在Procgen基准测试上显著提高样本效率和泛化能力,并超过了以前的最佳结果。
Oct, 2020
本文提出了一种新的经验回放采样框架,旨在解决深度强化学习模型 Prioritized Experience Replay (PER) 在连续控制任务上表现不佳的问题,同时还解决了 POLICY GRADIENT 问题和稳定性问题。在 extensive set of experiments 上证明该方法比现有算法表现更好。
Sep, 2022
本研究提出一种记忆技术 (Prioritized) Trajectory Replay (TR/PTR) 以优化 offline RL 的效率和性能。该方法将采样视角扩展到轨迹上,具有更全面的信息提取能力,并应用于现有的 offline RL 算法中。
Jun, 2023
本文提出了一种新算法CUER,该算法在考虑所有其他经验的公平性的同时,通过使采样状态分布更接近于策略,以解决经验回放中转换重要性动态调整的问题,从而在样本效率、最终性能和训练期间策略的稳定性方面显著提高离策略连续控制算法。
Jun, 2024
经验回放在强化学习中广泛应用,本论文通过研究多种优先级经验回放的变体,尝试理解优先级经验回放的适用性和效果。研究结果表明,在预测任务中,优先级经验回放可以改善表格设置中的值传播,但在与神经网络结合时存在显著区别。虽然一些缓解措施可以避免优先级经验回放和神经网络中出现大的误差峰值,但总体而言,它们通常不如均匀回放策略。在控制任务中,没有证据表明任何优先级变体能够一致地优于均匀回放。
Jul, 2024