May, 2023

使用视频预测模型作为强化学习的奖励

TL;DR本研究提出了一种名为 VIPER 的算法,可以从未标记的视频中提取出训练模型,作为强化学习的无手段奖励信号,以实现专家级控制,在 Atari 和 RLBench 等任务中具有良好的通用性和扩展性。