AAAIMay, 2019

基于目标分布学习的连续控制策略搜索

TL;DR本研究提出了新的强化学习方法 —— 目标分布学习 (TDL),通过交替提出目标分布和训练策略网络来解决现有策略梯度方法可能出现过大梯度和训练不稳定的问题,实验发现这种方法能得到类似或更好的结果,并且更加稳定。