PASTA：预训练的动作 - 状态 Transformer 代理

Jul, 2023

PASTA：预训练的动作 - 状态 Transformer 代理

PASTA: Pretrained Action-State Transformer Agents

Raphael Boige, Yannis Flet-Berliac, Arthur Flajolet, Guillaume Richard, Thomas Pierrot

TL;DR通过自我监督学习，本研究建立了一种预训练行为 - 状态 Transformer 代理模型（PASTA），并在行为克隆、离线 RL、传感器故障鲁棒性以及动态变化适应等广泛领域的下游任务中进行了综合研究和比较设计选择，以提供有价值的见解给从业者，从而构建更加鲁棒的模型并推动 RL 策略学习的发展。

Abstract

self-supervised learning has brought about a revolutionary paradigm shift in various computing domains, including NLP, vision, and biology. Recent approaches involve pre-training transformer models on vast amount

self-supervised learning transformer models pre-training objectives downstream tasks robust models

发现论文，激发创造

特殊符号调整的参数高效调整

提出一种名为 PASTA 的方法，只修改 Transformer 模型中每层自我注意模块前的特殊标记表示（例如 BERT 中的 [SEP] 和 [CLS]），可在只训练其总参数的 0.029％下，实现与全微调相当的性能，不仅提供了一种简单而有效的参数有效调整方式，而且证明了预训练语言模型中特殊标记的关键作用。

Oct, 2022

预训练模型：过去、现在和未来

本文全面介绍了预训练模型的历史、最新成果以及未来的研究方向，旨在推进预训练模型应用于下游任务的发展。

Jun, 2021

对比语言、动作和状态预训练用于机器人学习

本文介绍了一种名为 Contrastive Language, Action, and State Pre-training (CLASP) 的方法，采用分布式输出使文本命令和行为单元之间的对齐变得更加准确，从而帮助了解决机器人学习中的相关问题。该模型在对未知数据集进行检索和图像描述生成等任务中表现出了优秀的性能。

Apr, 2023

机器人传感运动预训练学习

该论文提出了一种自监督的感知动作预训练方法，称为 RPT，使用转换器操作传感动作令牌的序列，能够处理 latent 视觉表示，能够扩展到 10 倍大型模型，并可在真正的机器人上实现 10 Hz 的推断。

Jun, 2023

构建通用可重复使用的智能体 - 环境交互模型

本篇论文研究了如何预训练模型，并使其成为下游任务学习的可重复使用的通用架构。我们提出了一种构建代理 - 环境交互模型的方法，通过学习代理在各种任务中获得的域不变的后继特征并将其离散化为行为原型，建立了一个带有身体结构的模型。为了使模型成为下游任务学习的通用架构，我们提出了两种方法：（1）身体特征投影，通过将新任务的观察 - 动作对映射到身体结构中保留以前的知识；（2）投影贝尔曼更新，在新任务环境中增加学习可塑性。我们的初步研究结果表明，基于经过预训练的身体结构的下游任务学习可以处理任务目标、环境动态和传感器模式中的未知变化。

Nov, 2022

虚空中的行为：无监督主动预训练

通过在非有奖励的环境中最大化抽象表示空间中的非参数熵，APT 探索了环境，从而避免了具有挑战性的密度建模，并且在具有高维观察的环境中表现出色。在 Atari 游戏中，APT 在 12 种游戏上取得人类水平的性能，并且相对于经典的全监督 RL 算法具有高竞争性的表现。在 DMControl 套件中，APT 在渐进性能和数据效率方面击败了所有基线，并显着提高了初学者难以从头开始培训的任务性能。

Mar, 2021

监督预训练可学习上下文强化学习

在这篇论文中，我们通过引入和研究 Decision-Pretrained Transformer（DPT）并展示它在上下文感知机器人决策中的运用，证明了大型变形机模型在多个数据集上的上下文学习能力，同时实现了对决策问题的研究及基于贝叶斯后验采样的跨任务性能。

Jun, 2023

PACT: 感知 - 行为因果变换器用于自回归机器人预训练

本研究提出了 PACT（Perception-Action Causal Transformer）范式，通过自监督方法直接利用机器人数据来构建机器人的自身表示，并在移动机器人领域进行了实证研究。研究结果表明，通过共享一个好的自身表示，我们可以降低整个模型的容量并加速实时部署这些系统。

Sep, 2022

迈向具备预训练的持续学习通用框架

通过使用预训练的方法，我们提出了一个通用的框架来持续学习连续到达的任务，从一个理论的角度，我们将其目标分解为三个层次的组成部分，包括任务内预测、任务标识推断和任务适应预测，并提出了一种创新的方法来显式优化这些组件，通过参数高效的微调技术和表示统计量，我们在下游连续学习中实证展示了我们方法的优越性和普遍性，并进一步探讨了在上游连续学习中应用参数高效的微调技术的可行性，同时结合神经科学中的最新进展，讨论了所提框架的生物学基础。

Oct, 2023

理解预训练变压器在序贯决策中的训练和泛化

本文考虑了一类顺序决策问题的受监督预训练变压器模型，并且提出了一种解决预训练变压器训练及泛化问题的自然方法，该方法通过在训练过程中包含变压器生成的动作序列来提供更好的性能。同时，文章还分析了预训练变压器作为一种算法的特性，解释了其缺乏探索性和如何自动解决此问题，并在数值上将其与结构化算法相比较。

May, 2024