ICLROct, 2020

随机延迟的强化学习

TL;DR研究分析了随机延迟环境中的多步价值估计问题,提出了一种基于 Soft Actor-Critic 的延迟校正 Actor-Critic 算法来解决,实验证明其在 MuJoCo 连续控制环境中具有显著的性能优势。