Oct, 2022

一种面向离线强化学习的策略引导仿真方法

TL;DR该研究提出了一种 Policy-guided Offline RL 算法,该算法在训练时将想法分解为指导策略和执行策略,并通过指导策略来指导执行策略以实现状态组合性。该算法在离线 RL 的标准基准 D4RL 上展示了最高效的性能,并可以通过改变指导策略来轻松适应新的任务。