ICLRJul, 2017

Trust-PCL: 一种用于连续控制的离线信任区域方法

TL;DR提出一种基于离线数据的信任区域方法 Trust-PCL,能够在强化学习中稳定策略优化算法,使用相对熵正则化器优化最大回报目标的最优策略和状态值满足一组多步路径一致性,提高了样本效率和解决方案质量。