May, 2018

深度强化学习的监督策略更新

TL;DR提出了一种新的深度强化学习的高效采样方法,名为SPU。该方法通过在非参数化的近端策略空间中制定和解决约束优化问题来提高采样效率,并优于传统的策略优化算法TRPO和PPO。