Reverb:一种经验回放框架
本文通过系统的分析和研究体验回放在 Q-learning 方法中的两个基本性质:回放容量和学习更新与经验收集的比率(回放比),颠覆了关于经验回放的传统认识。同时,本文也测量了控制回放比的重要性,并对表现优秀的算法进行了一系列的测试。
Jul, 2020
本文将回放缓冲区采样问题看作梯度估计的重要采样问题,并提出了一种新的采样方案LaBER,与DQN、分布式RL和actor-critic方法相结合,能够在Atari游戏和PyBullet环境中提供比其他优先级方案更好的性能。
Oct, 2021
将 Remember and Forget for Experience Replay(ReF-ER)算法扩展到了多智能体强化学习(MARL)领域,并在 Stanford Intelligent Systems Laboratory(SISL)环境中的对比实验中证明,采用单级前馈神经网络模型实现 ReF-ER MARL 算法,其性能表现优于现有复杂神经网络架构的算法。
Mar, 2022
介绍了使用基于事件表格的分层采样(SSET)方法,该方法将经验回放缓冲区划分为事件表格,每个表格都捕获了优化行为的重要子序列,在MiniGrid领域、基准RL环境和高保真度赛车模拟器中进行的实证研究表明,相较于现有的ER缓冲区采样方法,采用SSET方法具有更快的学习速度和更好的稳定性。
Nov, 2022
该研究采用基于心理认知的重新记忆策略,通过构建一个基于地图的经验重播存储库,减少了记忆体的大小,并增加了样本之间的相关性,从而有效地解决了深度增强学习代理在处理新数据时可能出现的忘记先前解决方案的问题。
May, 2023
本文提出了一种新算法CUER,该算法在考虑所有其他经验的公平性的同时,通过使采样状态分布更接近于策略,以解决经验回放中转换重要性动态调整的问题,从而在样本效率、最终性能和训练期间策略的稳定性方面显著提高离策略连续控制算法。
Jun, 2024
在线强化学习中,经验回放是其成功的关键组成部分。本文提出了一种基于时间差异错误的经验重新加权策略,并通过使用KL散度作为正则化器将其优化为一种新形式的最优经验回放策略,得到了出色的实验结果。
Jul, 2024
本研究解决了反向经验重放(RER)算法在收敛性理论分析中的局限性,特别是在对学习率和连续步骤长度的限制。通过提供一种更紧凑的分析,我们证明RER在更大的学习率和更长的序列下也能收敛,从而显著提高了该方法的样本复杂性。
Aug, 2024