BriefGPT.xyz
Mar, 2020
通过无关行为的发散正则化来实现稳定的政策优化
Stable Policy Optimization via Off-Policy Divergence Regularization
HTML
PDF
Ahmed Touati, Amy Zhang, Joelle Pineau, Pascal Vincent
TL;DR
在这篇论文中,我们提出了一种新的算法,它通过一种接近性项稳定了策略改进,并限制由连续策略引发的折扣状态行动访问分布彼此接近,并通过离线训练和对抗性学习的方式学习这种接近性项。我们在基准高维控制任务中实证表明,我们提出的方法可以对稳定性产生有益影响,并提高最终性能.
Abstract
trust region policy optimization
(TRPO) and
proximal policy optimization
(PPO) are among the most successful policy gradient approaches in
deep r
→