Feb, 2023

CLARE: 离线反向强化学习中保守的基于模型的奖励学习

TL;DR该论文提出了一种名为CLARE的算法,该算法通过将“保守性”纳入学习的奖励函数并利用估计的动力学模型来解决离线逆强化学习中的奖励外推错误问题,其得到的学习奖励函数是高度可指导后续的学习,通过大量实验证明了CLARE相较于现有最先进算法在MuJoCo连续控制任务上的明显性能提升。