ICMLJul, 2023

分布式强化学习的方差控制

TL;DR基于分布式强化学习的新 Q 函数估计器和 QEMRL 算法通过误差分析和理论证明能够减小偏差和方差,并在 Atari 和 Mujoco 基准任务中显著提高了样本效率和收敛性能。