ICLRJan, 2020
强化学习中的种群指导并行策略搜索
Population-Guided Parallel Policy Search for Reinforcement Learning
Whiyoung Jung, Giseung Park, Youngchul Sung
TL;DR提出了一种新的基于群体引导的并行学习方法,通过在共享经验回放缓冲区中搜索良好的策略,结合最佳策略信息,软融合构建损失函数,以实现稀疏奖励环境下提升最佳期望累计回报的目的,其中 TD3 算法是工作算法之一。