RePreM: 用带掩码模型的表示预训练进行强化学习

AAAIMar, 2023

RePreM: 用带掩码模型的表示预训练进行强化学习

RePreM: Representation Pre-training with Masked Model for Reinforcement Learning

Yuanying Cai, Chuheng Zhang, Wei Shen, Xuyun Zhang, Wenjie Ruan...

TL;DR通过使用遮蔽模型进行预训练，提出了适用于 RL 的遮蔽模型预训练方法 RePreM，避免了算法复杂性和数据增强的问题，并通过各种任务的实验证明了其有效性。

Abstract

Inspired by the recent success of sequence modeling in rl and the use of masked language model for pre-training, we propose a masked model

reprem masked model pre-training rl representation

发现论文，激发创造

使用遮蔽视觉预训练的真实世界机器人学习

本文研究了利用自监督学习方法从真实世界的机器人任务中的多样化视频图像中进行视觉预训练，在多种机器人任务和实体上表现出了较高效果，并通过在 4.5M 张来自互联网和自怎样视角视频的大规模数据上进行的预训练，展示了对于机器人学习的视觉预培训的规模化提升的好处。

Oct, 2022

通过掩码重构无监督预训练双向语音编码器

提出了一种使用掩蔽重构损失进行预训练语音表示的方法，实现了双向预训练编码器网络在典型的双向语音识别模型中的直接使用。该方法在 LibriSpeech 和 Wall Street Journal 语料库上的实验表明，预训练、掩蔽段、领域适应都能提高语音识别性能。

Jan, 2020

MILAN: 基于语言辅助表征的掩蔽图像预训练

本文提出了一种基于自注意力和掩码自编码器的图像预训练方法 MILAN，通过嵌入语言监督来生成语义信息丰富的图像特征，通过实验证明，该方法在多项计算机视觉任务中优于现有方法。

Aug, 2022

掩码语言建模中的表征缺陷

本文提出了一种新的预训练方法 MAE-LM，通过在 Masked Autoencoder 中排除 [MASK] 符号的编码器，解决了 Masked Language Modeling 预训练方法中 [MASK] 符号造成的表达上的不足问题，通过在 GLUE 和 SQuAD 基准测试上的表现，证明了 MAE-LM 在不同预训练设置和模型大小下都优于 MLM 预训练模型。

Feb, 2023

基于掩码自编码的可扩展通用决策制定

本文提出了一种名为 MaskDP 的简单、可扩展的自监督预训练方法，用于强化学习和行为克隆。这种方法利用了掩码自编码器（MAE）在状态 - 动作轨迹中的作用，可以更好地学习多个下游任务的模型。实验表明，MaskDP 模型的零 - shot 迁移和有前途的规模化行为与模型大小有关。

Nov, 2022

多智能体决策的屏蔽预训练

提出了一种基于 Transformer 架构的 MaskMA 预训练框架，通过分布式执行和部分观察的方式，同时解决了多智能体决策中分布式预训练和执行不匹配以及智能体数量和行动空间多样性的问题，实验结果显示 MaskMA 在多个任务上都表现出色，包括 77.8％的零 - shot 胜率和有效的策略协作和临时团队游戏能力。

Oct, 2023

UniLMv2：伪掩码统一语言模型预训练

本文提出了一种称为 Pseudo-Masked Language Model（PMLM）的新训练程序，用于预训练统一的语言模型以处理自动编码和部分自回归语言建模任务，并通过自我注意力掩码和位置嵌入来避免冗余计算，在自然语言理解和生成任务方面取得了新的最先进的结果。

Feb, 2020

掩码轨迹模型：预测、表征和控制

本文介绍了遮盖轨迹模型 (MTM) 作为顺序决策制定的一般抽象。MTM 采取轨迹，如状态动作序列，并旨在在相同轨迹的随机子集的条件下重建轨迹。通过高度随机化的遮盖模式进行训练，MTM 学习多功能网络，可以通过在推理时选择适当的遮罩来扮演不同的角色或具有不同的能力。通过在几个连续控制任务中进行广泛的实验，我们展示了相同的 MTM 网络可以匹配或优于专门针对前述能力进行训练的网络。此外，我们发现 MTM 学到的状态表示可以显着加速传统 RL 算法的学习速度。最后，在离线 RL 基准测试中，我们发现 MTM 尽管是一种通用的自监督学习方法，并且没有任何明确的 RL 组件，但它与专门的离线 RL 算法相竞争。

May, 2023

简单却令人沮丧的预训练替代方法：掩码语言建模

本文研究了五种基于令牌级分类任务的简单预训练目标作为 MLM 替代品，证明这些方法可以达到与使用 BERT-BASE 结构的 MLM 相当或更好的性能，并且使用较小的模型进行验证。

Sep, 2021

为数据高效的强化学习预训练表示

利用未标记数据预先训练编码器，然后在少量任务特定数据上微调，通过使用潜在动态建模和无监督的目标条件强化学习来促进学习代表捕捉底层 MDP 的多个方面，该方法显示出极高的数据效率并且提供与先前工作以及需要订单更多数据的其他预训练方法相比的最先进的性能

Jun, 2021