体验回放优化
提出了一种叫做 Remember and Forget Experience Replay (ReF-ER) 的新方法,可以增强基于参数化策略的深度强化学习算法,通过跳过与当前策略不太相似的经验,以及限制回放行为的信任区域内的策略变化,来提高数据效率和应对算法策略的变化。实验结果表明,ReF-ER 能够在全可观测基准测试和部分可观测的流控问题上持续提高连续动作,离线策略强化学习性能。
Jul, 2018
经验重播 (ER) 在深度强化学习中被认为只适用于离策略算法,然而也有一些案例表明 ER 已被应用于策略算法,表明离策略特性可能是应用 ER 的一个充分条件。本文重新考虑了更严格的 “经验重播条件”(ERC),并提出了修改现有算法以满足 ERC 的方法。为此,假设策略改进的不稳定性是 ERC 的关键点,通过度量学习的视角揭示了不稳定性因素,即 i) 来自负样本的排斥力和 ii) 不合适经验的重播。因此,得出了相应的稳定化技巧。结果通过数值模拟证实了所提出的稳定化技巧使 ER 适用于一种策略算法 —— 优势执行者 - 评论者算法 (on-policy algorithm),此外,它的学习性能与现有的离策略算法中的软执行者 - 评论者算法相当。
Feb, 2024
本文提出了一种新算法 CUER,该算法在考虑所有其他经验的公平性的同时,通过使采样状态分布更接近于策略,以解决经验回放中转换重要性动态调整的问题,从而在样本效率、最终性能和训练期间策略的稳定性方面显著提高离策略连续控制算法。
Jun, 2024
本文通过系统的分析和研究体验回放在 Q-learning 方法中的两个基本性质:回放容量和学习更新与经验收集的比率(回放比),颠覆了关于经验回放的传统认识。同时,本文也测量了控制回放比的重要性,并对表现优秀的算法进行了一系列的测试。
Jul, 2020
本研究从经验重放和模型的角度出发,对 Deep Q-Network 算法中回放量的变化对样本效率和算法健壮性的影响进行了系统性研究,在 Mountain Car 环境下获得了提高样本效率、降低性能波动、提高算法鲁棒性的结果,为算法应用方面提供了新的思路。
Feb, 2023
本研究介绍了一种基于经验共享机制和无需动作概率估计的离策略校正技术,以应对在高维持续任务中,经验重现内存非常有限的挑战。该方法能够在具有严格限制的重现缓冲器内安全地共享多个代理人的经验,并在具有挑战性的 OpenAI Gym 连续控制任务中表现出坚韧的性能。
Jul, 2022
本文研究通过经验重放的方法,利用 “distribution matching” 算法来防止深度神经网络多任务学习中的严重忘却问题。实验探索了不同体验选择策略的优缺点,结果表明分布匹配算法可以成功避免严重忘却问题,并且在所有测试领域中始终表现最佳。同时我们发现,当部分任务的重要性比其他任务更高时,最大化状态空间覆盖率是有福利的。
Feb, 2018