ICMLOct, 2021

大批次经验回放

TL;DR本文将回放缓冲区采样问题看作梯度估计的重要采样问题,并提出了一种新的采样方案 LaBER,与 DQN、分布式 RL 和 actor-critic 方法相结合,能够在 Atari 游戏和 PyBullet 环境中提供比其他优先级方案更好的性能。