ICLRSep, 2022

VIP:通过价值内隐预训练实现通用视觉奖励和表示

TL;DR本研究提出了一种称为 VIP 的表示自学习方法,通过自监督目标条件强化学习的方式从未标注的人类视频中生成稠密的,可平滑的奖励函数,克服机器人数据获取上的困难,并在实验中表现出优异的表现。