Nov, 2022

对比价值学习:简单离线强化学习的隐式模型

TL;DR本文介绍了一种新的模型 - 基强化学习方法 Contrastive Value Learning 用于离线场景中,在不受奖励函数限制下,学习一个隐含的、多步骤的环境动力学模型,直接估计每个动作的价值,并在复杂的连续控制基准测试中优于先前的离线 RL 方法。