Trust-PCL: 一种用于连续控制的离线信任区域方法

Jul, 2017

Trust-PCL: 一种用于连续控制的离线信任区域方法

Trust-PCL: An Off-Policy Trust Region Method for Continuous Control

Ofir Nachum, Mohammad Norouzi, Kelvin Xu, Dale Schuurmans

TL;DR提出一种基于离线数据的信任区域方法Trust-PCL，能够在强化学习中稳定策略优化算法，使用相对熵正则化器优化最大回报目标的最优策略和状态值满足一组多步路径一致性，提高了样本效率和解决方案质量。

Abstract

trust region methods, such as TRPO, are often used to stabilize policy optimization algorithms in reinforcement learning (RL). While current trust region strategies are effective for continuous control, they typi