反演动态预训练为多任务模仿学习学习良好的表征

May, 2023

反演动态预训练为多任务模仿学习学习良好的表征

Inverse Dynamics Pretraining Learns Good Representations for Multitask Imitation

David Brandfonbrener, Ofir Nachum, Joan Bruna

TL;DR本研究在模仿学习中评估了如何使用大型数据集进行预训练。我们提供了关于使用多任务演示和逆动力学建模的语境下进行预训练的证据，并在各种虚拟视觉操作问题中评估了这些证据。

Abstract

In recent years, domains such as natural language processing and image recognition have popularized the paradigm of using large datasets to pretrain representations that can be effectively transferred to downstream tasks. In this work we evaluate how such a paradigm should be done in imitatio

imitation learning pretraining multitask demonstrations inverse dynamics modeling visuomotor manipulation

发现论文，激发创造

具有逆动力学表示的稳健视觉模仿学习

我们提出了一种新颖的鲁棒模仿学习方法，通过发展逆动力学状态表示学习目标来对齐专家环境和学习环境，通过设计有效的奖励函数来度量行为数据和专家数据之间的相似性，从而在各种视觉扰动和视觉控制任务中实现近乎专家的性能，并显著优于当前最先进的视觉模仿学习方法和鲁棒模仿学习方法。

Oct, 2023

使用逆动力学模型从像素规划

提出了一种新的方法来学习依赖任务完成的未来动作序列预测的潜在世界模型，该模型适应地关注任务相关的动态学习，并同时充当稀疏奖励下计划的有效启发式方法，通过挑战性的视觉目标完成任务的评估，我们发现该方法较之前的无模型方法在性能上有了显著提高。

Dec, 2020

基于模型的视觉演示逆强化学习

本文介绍了一种基于梯度的反向强化学习框架，利用预训练的视觉动态模型从视觉人类演示中学习成本函数，并通过视觉模型预测控制来复制演示行为，以解决机器人操作中的未知动力学等问题。我们在两个基本的对象操作任务上评估了我们的框架。

Oct, 2020

视频预训练（VPT）：通过观看未标记的在线视频学习行为

该研究探索了如何利用半监督式模仿学习的方法，在游戏领域中通过预训练行为先验模型来实现强化学习，从而达到人类甚至更高的行为水平。

Jun, 2022

为数据高效的强化学习预训练表示

利用未标记数据预先训练编码器，然后在少量任务特定数据上微调，通过使用潜在动态建模和无监督的目标条件强化学习来促进学习代表捕捉底层 MDP 的多个方面，该方法显示出极高的数据效率并且提供与先前工作以及需要订单更多数据的其他预训练方法相比的最先进的性能

Jun, 2021

将对比学习与动态模型集成，用于从图像中进行强化学习

本文提出了一种自监督表征学习方法，它将对比学习与动态模型相结合，以协同地实现三个目标，即通过最大化信息 NCE 界来诱导线性预测嵌入，通过显式学习非线性转换模型进一步提高学习嵌入的马尔可夫性以及最大化下一嵌入的互信息，其基于当前动作和当前状态的两个独立增强的嵌入预测，实验表明，与基于对比学习或重建的现有方法相比，我们的方法在样本效率和泛化性能上都取得了更好的结果。

Mar, 2022

构建通用可重复使用的智能体 - 环境交互模型

本篇论文研究了如何预训练模型，并使其成为下游任务学习的可重复使用的通用架构。我们提出了一种构建代理 - 环境交互模型的方法，通过学习代理在各种任务中获得的域不变的后继特征并将其离散化为行为原型，建立了一个带有身体结构的模型。为了使模型成为下游任务学习的通用架构，我们提出了两种方法：（1）身体特征投影，通过将新任务的观察 - 动作对映射到身体结构中保留以前的知识；（2）投影贝尔曼更新，在新任务环境中增加学习可塑性。我们的初步研究结果表明，基于经过预训练的身体结构的下游任务学习可以处理任务目标、环境动态和传感器模式中的未知变化。

Nov, 2022

领域匹配的密集检索预训练任务

通过在 65 百万个合成问题和 2 亿个来自 Reddit 对话的帖子对大型 bi-encoder 模型进行适当的预训练，可以在信息检索和对话检索基准测试中实现比监督基准线显着更好的表现。

Jul, 2021

遮蔽编排：多任务预训练用于多角色对话表示学习

该研究基于各类无监督预训练任务探究对话上下文表示的学习，并通过精细调整的预训练机制，有效整合了外部知识，能够大幅提高对话提取 / 摘要等下游任务的效果。

Feb, 2020

通过学习深度反向动力学模型，从模拟环境实现向真实世界的迁移

本文研究了如何将在模拟中成功的控制策略推广到实际机器人上，通过计算模拟根据该策略期望的状态并利用深度逆动力学模型决定哪种真实世界的控制动作最适合实现这些状态，同时提出了一种数据收集方法（逐步）学习深度逆动力学模型。

Oct, 2016