Oct, 2023

CROP:基于模型的线下策略优化的保守奖励

TL;DR通过引入保守性估计奖励的方法,本论文提出了一种创新的基于模型的离线增强学习算法,名为 CROP,该算法通过同时最小化估计误差和随机动作的奖励来保守地估计模型训练中的奖励,从而实现保守的策略评估并帮助缓解分布偏移问题。在 D4RL 基准测试中,CROP 的性能与最先进的基准算法相当。值得注意的是,CROP 建立了离线和在线增强学习之间的创新连接,突出了通过采用在线增强学习技术对使用保守奖励训练得到的经验马尔可夫决策过程来解决离线增强学习问题的可行性。