ICLROct, 2020
随机延迟的强化学习
Reinforcement Learning with Random Delays
Simon Ramstedt, Yann Bouteiller, Giovanni Beltrame, Christopher Pal, Jonathan Binas
TL;DR研究分析了随机延迟环境中的多步价值估计问题,提出了一种基于 Soft Actor-Critic 的延迟校正 Actor-Critic 算法来解决,实验证明其在 MuJoCo 连续控制环境中具有显著的性能优势。