Sep, 2023

百人为导师,百万人引领:自适应离线强化学习与专家指导

TL;DR离线强化学习中典型问题是分布转移问题,我们提出了一种名为 Guided Offline RL(GORL)的新方法,使用引导网络和少数专家演示样本,自适应确定每个样本的策略改进和策略约束的相对重要性。在各种环境上进行的大量实验表明,GORL 可在大多数离线强化学习算法上轻松安装,并实现统计上显著的性能提升。