后见之链中崛起的代理变形机

ICMLMay, 2023

Emergent Agentic Transformer from Chain of Hindsight Experience

Hao Liu, Pieter Abbeel

TL;DR本文利用 “chain of hindsight” 方法在强化学习中训练了一个能够直接综合多个轨迹信息的 transformer 模型，并通过在 D4RL 和 ExoRL 基准测试中的表现证明了它的竞争力和可伸缩性。

Abstract

Large transformer models powered by diverse data and model scale have dominated natural language modeling and computer vision and pushed the frontier of multiple AI areas. In reinforcement learning (RL), despite many efforts into →

transformer-based policies reinforcement learning chain of hindsight autoregressive model agentic transformer

发现论文，激发创造

多游戏决策转换器

本研究探讨了采用 transformer-based model 方法训练的多用途强化学习代理程序在 Atari 游戏中的表现，发现使用 Multi-Game Decision Transformer 模型的性能和可伸缩性最佳，并提供预训练模型和代码以鼓励该方向的进一步研究。

May, 2022

决策变压器：通过序列建模的强化学习

本文基于序列建模思路，提出一种将强化学习抽象为序列建模问题的框架，使用 Transformer 架构和相关的语言建模技术（如 GPT-x 和 BERT）来解决增强学习任务，其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报，其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。

Jun, 2021

基于 Transformer 的世界模型需要 100k 次交互

使用变换器对真实世界情节进行自回归处理，生成有意义、新的经历，进而训练超越之前强化学习算法的策略。

Mar, 2023

使用 Transformer 进行事实链的自回归推理

本文提出了一种迭代推理算法来实现多跳解释再生，该算法根据自然语言问题和其答案检索相关的事实证据。该算法通过自回归地从语料库中选取事实，以学习排序损失的方式来缓解多源证据的选择问题。使用预训练的 Transformer 模型进行实验，结果显示该算法在精度、培训时间和推理效率方面均优于先前的最先进技术。

Dec, 2020

变形金刚是元强化学习算法

本文介绍了 TrMRL，这是一种运用 Transformer 架构的基于元强化学习的代理（Meta-Reinforcement Learning Algorithm），它结合了最近的工作内存以递归方式构建情境记忆，并利用 self-attention 机制计算和提供有意义的特征以执行最佳任务。研究表明，在高维连续控制环境下，TrMRL 相对于基线模型表现出了相当或优异的收敛性能、采样效率和超出分布范围的概况。

Jun, 2022

通过层次强化学习重新思考决策 Transformer

决策 Transformer 是一种创新算法，利用了转换器架构在强化学习中的最新进展；我们提出一个序列建模框架来研究通过分层强化学习进行顺序决策的方法，并展示了 DT 作为该框架的一个特例，同时讨论了潜在的失败选择；受到这些观察的启发，我们研究了如何联合优化高层和低层策略以实现拼接能力，从而进一步发展了新的离线强化学习算法；我们的实证结果清楚地表明，所提出的算法在多个控制和导航基准测试中明显优于 DT；我们希望我们的贡献可以在强化学习领域中推动转换器架构的整合。

Nov, 2023

使用演员 - 学习者蒸馏技术在增强学习中提高 Transformer 效率

使用 Actor-Learner Distillation 过程，我们可以在具有 ' 演员延迟 ' 限制的场景中，通过将学习进展从大容量学习器模型传输到小容量演员模型来利用大型模型容量，而不会超出演员的限制。以部分可观察环境为背景，在多个具有挑战性的内存环境中，我们使用 Actor-Learner Distillation 恢复了 Transformer 学习器模型的明显样本效率增益，同时保持了 LSTM 演员模型的快速推理和减少总训练时间。

Apr, 2021

Transformer 是高效样本的世界模型

IRIS 是一个深度强化学习代理，学习于由离散自动编码器和自回归 Transformer 组成的世界模型中，仅用两小时的时间即可在 Atari 100k 基准测试中实现 1.046 的平均人类标准化得分，在 26 个游戏中有 10 个游戏超过了人类的表现，是一种有效的世界模型学习方法。

Sep, 2022

离线强化学习的多目标决策 Transformer

离线强化学习以多目标优化问题的形式重新定义为序列建模任务，引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制，达到或超过当前最先进方法的性能。

Aug, 2023

分层变压器是高效的元强化学习者

Hierarchical Transformers for Meta-Reinforcement Learning (HTrMRL) is an online meta-reinforcement learning approach that improves learning efficiency and generalization capabilities, outperforming the previous state-of-the-art algorithm in various tasks.

Feb, 2024