ICLRJan, 2020

强化学习中的种群指导并行策略搜索

TL;DR提出了一种新的基于群体引导的并行学习方法,通过在共享经验回放缓冲区中搜索良好的策略,结合最佳策略信息,软融合构建损失函数,以实现稀疏奖励环境下提升最佳期望累计回报的目的,其中 TD3 算法是工作算法之一。