May, 2023
使用视频预测模型作为强化学习的奖励
Video Prediction Models as Rewards for Reinforcement Learning
Alejandro Escontrela, Ademi Adeniji, Wilson Yan, Ajay Jain, Xue Bin Peng...
TL;DR本研究提出了一种名为 VIPER 的算法,可以从未标记的视频中提取出训练模型,作为强化学习的无手段奖励信号,以实现专家级控制,在 Atari 和 RLBench 等任务中具有良好的通用性和扩展性。