ICMLJul, 2022

确定性策略梯度算法的安全稳健体验共享

TL;DR本研究介绍了一种基于经验共享机制和无需动作概率估计的离策略校正技术,以应对在高维持续任务中,经验重现内存非常有限的挑战。该方法能够在具有严格限制的重现缓冲器内安全地共享多个代理人的经验,并在具有挑战性的 OpenAI Gym 连续控制任务中表现出坚韧的性能。