利用视频进行无动作预训练的强化学习

Mar, 2022

利用视频进行无动作预训练的强化学习

Reinforcement Learning with Action-Free Pre-Training from Videos

Younggyo Seo, Kimin Lee, Stephen James, Pieter Abbeel

TL;DR本文介绍了一种通过生成式预训练学习得到的视觉表示，用于有效地加速并提高多种任务下视觉增强学习系统性能和效率的框架。我们在视频数据上预训练了一个无动作潜在视频预测模型，并将这些表示用于未知环境下的学习操作条件下的世界模型。我们还引入了一个新的架构，该架构在预训练的无动作预测模型的基础上堆叠了一个动作条件潜在预测模型，以更好地实现探索。同时也提出了基于视频的内在激励奖励机制，利用预训练表示的优势，有效提升了数据利用率和最终权能的完成度。

Abstract

Recent unsupervised pre-training methods have shown to be effective on language and vision domains by learning useful representations for multiple downstream tasks. In this paper, we investigate if such unsupervised pre

发现论文，激发创造

通过观看YouTube视频学习驾驶：动作条件对比策略预训练

本文提出了一种基于相反动态模型和对比策略预训练的方法来为自动驾驶任务预训练策略模型，使用未经筛选的YouTube视频作为数据源，显著提高了强化学习和模仿学习等下游任务的准确性和效率。

Apr, 2022

无监督模型预训练：从像素到高效控制

本文提出了一种基于无监督RL策略的数据高效视觉控制的方法，通过使用Dyna-MPC等组件的预训练来实现更快的任务适应，并且在大规模实证研究的基础上建立了一种强化学习方法，可以使无监督设计策略的性能大大提高。

Sep, 2022

在运动控制中预训练视觉模型中，策略学习方法并不平等

研究了14个预先训练的视觉模型对3种不同类型的策略学习方法的影响，包括强化学习（RL）、通过行为克隆进行模仿学习（BC）和带有视觉奖励功能的模仿学习（VRF），结果表明预先训练的模型的有效性高度依赖于下游策略学习算法的选择。

Apr, 2023

利用野外视频进行预训练的语境化世界模型，用于强化学习

本文研究利用野外数据预训练 world models 来提高 model-based reinforcement learning 在多个领域的样本效率，并引入了一种名为 Contextualized World Models 的模型来解决野外数据的语境多样性问题。实验结果表明，使用带有 Contextualized World Models 的野外视频预训练可以显著提高机器人操作、运动和自动驾驶等多个领域内 MBRL 的样本效率。

May, 2023

学习无行动行动

通过从无动作演示中推断潜在动作，我们介绍了一种名为LAPO的方法，它可以有效地预训练深度强化学习模型，并且可以快速微调以实现专家级表现。这为在网上大量的无动作演示中预训练强大而通用的强化学习模型提供了重要基础。

Dec, 2023

通过离散扩散进行大规模无操作视频预训练，实现高效策略学习

利用人类视频进行预训练，通过有限的机器人演示来转移知识，实现机器人策略学习的通用性体现。

Feb, 2024

带有希尔伯特表示的基础政策

通过学习结构化表示并利用方向性移动跨越学习的潜在空间，我们提出了一种新的无监督框架，用于从无标签的离线数据中预训练能够捕捉多样化、最优且长程行为的通用策略，并可以在零样本方式下快速适应任意新任务。在模拟机器人的运动和操作基准测试中的实验证明，我们的无监督策略可以以零样本的方式解决目标有条件的和通用 RL 任务，甚至经常优于针对每个场景专门设计的先前方法。

Feb, 2024

从视频中实现强化学习的原则性表示学习

研究使用视频数据进行决策预训练表示学习，讨论两种情景：观察中的独立同分布噪声和存在外部噪声的困难情景，验证了在不同情境中学习表征方法的样本复杂度和性能表现。

Mar, 2024

来自视频的潜在动作预训练

本研究解决了现有视觉-语言-动作模型依赖于人工标签的问题，提出了一种从无标签互联网视频中学习的潜在动作预训练方法（LAPA）。该方法通过训练动作量化模型学习离散潜在动作，并在小规模机器人操作数据上微调模型，实验证明其在实际操作任务中显著优于现有技术，展现了利用网络规模数据进行机器人基础模型训练的潜力。

Oct, 2024

用于高效策略学习的预训练视觉动态表示

本研究针对利用无标注视频数据进行强化学习预训练中的挑战，提出了一种名为预训练视觉动态表示（PVDR）的新方法。通过采用视频预测作为预训练任务，我们利用基于Transformer的条件变分自编码器（CVAE）学习视频中的视觉动态表示，从而有效缩小视频与下游任务之间的领域差距，促进政策学习的效率。实验结果表明，PVDR能够有效提升基于视频的预训练效果。

Nov, 2024