使用视频预测模型作为强化学习的奖励

May, 2023

使用视频预测模型作为强化学习的奖励

Video Prediction Models as Rewards for Reinforcement Learning

Alejandro Escontrela, Ademi Adeniji, Wilson Yan, Ajay Jain, Xue Bin Peng...

TL;DR本研究提出了一种名为 VIPER 的算法，可以从未标记的视频中提取出训练模型，作为强化学习的无手段奖励信号，以实现专家级控制，在 Atari 和 RLBench 等任务中具有良好的通用性和扩展性。

Abstract

Specifying reward signals that allow agents to learn complex behaviors is a long-standing challenge in reinforcement learning. A promising approach is to extract preferences for behaviors from unlabeled videos, w

reinforcement learning video prediction rewards pretrained models autoregressive transformer unlabeled videos

发现论文，激发创造

通过策略提取实现可验证的强化学习

使用 VIPER 算法训练决策树策略来增强强化学习的安全性和验证性，它相对于其他算法在 Atari Pong 和 cart-pole 这两项任务上都有着可靠的表现。

May, 2018

VIP：通过价值内隐预训练实现通用视觉奖励和表示

本研究提出了一种称为 VIP 的表示自学习方法，通过自监督目标条件强化学习的方式从未标注的人类视频中生成稠密的，可平滑的奖励函数，克服机器人数据获取上的困难，并在实验中表现出优异的表现。

Sep, 2022

基于强化学习的机器人导航中改进的策略蒸馏

通过多个场景可验证强化学习通过策略提取（MSVIPER）提出了一种新的策略精馏方法，用于改进机器人导航。通过任何 RL 技术学习状态 - 动作映射，并使用模仿学习从中学习决策树策略，从而学习 “专家” 策略。我们通过室内和室外场景的机器人导航算法的改进演示了我们的方法。

Sep, 2022

学习基于视频的策略用于未见过的操纵任务

通过一个基于视频的条件学习智能体（ViP）方法，本文提出了一种无需训练数据就能够通过人类演示来控制机器人操作的方法，该方法在多项机器人操作环境中的表现优于现有技术，并在新的零样本设置中展现出良好的性能，可能具有广泛的应用前景。

May, 2023

VIPeR: 基于神经函数近似的离线强化学习可证明高效算法

该研究提出了一种称为 VIPeR 的新算法，将悲观主义原则与值函数的随机扰动相结合，用于弥补当前离线 RL 算法在使用神经网络近似值函数的复杂问题上无法轻松扩展的局限，实现了具有集成学习功能的离线 RL 算法。

Feb, 2023

视频游戏的逆强化学习

通过改良强化学习反求解奖励函数模型的 CNN-AIRL 方法以及使用对电子游戏环境进行了调整的自动编码器将专家演示转化为奖励网络的输入，本文在简单的 Catcher 游戏上取得了高水平表现，显著超越了 CNN-AIRL 基线，但在 Enduro Atari 赛车游戏中表现不佳，这彰显了需要进一步研究的必要性。

Oct, 2018

PIPER: 基于先验知识驱动的基于偏见重标记的层次强化学习

通过基于偏好的学习来学习奖励模型，并利用此模型对更高级别的重放缓冲区进行重新标记，以缓解现有层次化方法中常见的非稳态问题，并在各种具有挑战性的稀疏奖励任务中展现出令人印象深刻的性能。

Apr, 2024

深度视觉预见性规划机器人动作

本论文提出一种基于无标注训练数据的方法，结合深度动作条件视频预测模型和模型预测控制，使真实机器人能够进行非抓取操作，比如推动物体，并且可以处理训练过程中没有出现过的新物体。

Oct, 2016

扩散奖励：通过条件化视频扩散学习奖励

通过专家视频学习奖励，我们提出了一种名为 Diffusion Reward 的框架，通过条件视频扩散模型学习奖励，以解决复杂的视觉强化学习问题。

Dec, 2023

T3VIP: 基于变换的三维视频预测

为了实现机器人的自主技能获取，本文提出了一种基于转化的 3D 视频预测（T3VIP）方法，通过将场景分解为其对象部件并预测其相应的刚性变换，从自身的过去经验中明确地模拟 3D 运动，预测未来的可行结果，并具备自适应超参数优化技术，是首个提供固定摄像头的 RGB-D 视频预测的生成模型。

Sep, 2022