Mar, 2020

通过无关行为的发散正则化来实现稳定的政策优化

TL;DR在这篇论文中,我们提出了一种新的算法,它通过一种接近性项稳定了策略改进,并限制由连续策略引发的折扣状态行动访问分布彼此接近,并通过离线训练和对抗性学习的方式学习这种接近性项。我们在基准高维控制任务中实证表明,我们提出的方法可以对稳定性产生有益影响,并提高最终性能.