Mar, 2018

元策略梯度学习探索

TL;DR该研究论文提出了一种基于 `meta-policy gradient` 算法的自适应学习方法,可用于解决现有基于添加噪声的探索方法仅能探索接近 actor 策略的局部区域的问题,从而实现独立于 actor 策略的全局探索,而这对各种强化学习任务的样本效率都有相当大的提升。