变形金刚是元强化学习算法

ICMLJun, 2022

Transformers are Meta-Reinforcement Learners

Luckeciano C. Melo

TL;DR本文介绍了 TrMRL，这是一种运用 Transformer 架构的基于元强化学习的代理（Meta-Reinforcement Learning Algorithm），它结合了最近的工作内存以递归方式构建情境记忆，并利用 self-attention 机制计算和提供有意义的特征以执行最佳任务。研究表明，在高维连续控制环境下，TrMRL 相对于基线模型表现出了相当或优异的收敛性能、采样效率和超出分布范围的概况。

Abstract

The transformer architecture and variants presented remarkable success across many machine learning tasks in recent years. This success is intrinsically related to the capability of handling long sequences and the presence of context-dependent weights from the attention mechanism. We a

transformer architecture meta-reinforcement learning self-attention episodic memory continuous control

发现论文，激发创造

分层变压器是高效的元强化学习者

Hierarchical Transformers for Meta-Reinforcement Learning (HTrMRL) is an online meta-reinforcement learning approach that improves learning efficiency and generalization capabilities, outperforming the previous state-of-the-art algorithm in various tasks.

Feb, 2024

决策变压器：通过序列建模的强化学习

本文基于序列建模思路，提出一种将强化学习抽象为序列建模问题的框架，使用 Transformer 架构和相关的语言建模技术（如 GPT-x 和 BERT）来解决增强学习任务，其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报，其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。

Jun, 2021

强化学习中的 Transformer 稳定化

在自然语言处理领域得到了突破性的成功后，本文提出一种修改后的” 转换器” 架构，即门控 Transformer-XL (GTrXL)，在部分可观察的强化学习 RL 领域中实现了与竞争性 LSTM 基线相媲美的稳定性和性能，超过了 LSTM 并在多任务 DMLab-30 基准套件上取得了最新的成果。

Oct, 2019

循环线性变换

通过引入循环替代方案以解决 transformer 自注意机制中的两个局限，本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法，在强化学习问题中实现了性能的提升。

Oct, 2023

基于模型的元强化学习方法：变压器和树搜索

通过模型学习和在线计划，基于 Transformer 架构的模型算法在元强化学习问题的符号 Alchemy 环境中展示出比先前应用的基于模型无关的强化学习方法更好的性能，揭示了基于模型的方法在元学习的探索和利用方面的相关性和变现出复杂动态的 Transformer 架构的效率。

Aug, 2022

强化学习中的 Transformers：综述

本文介绍了 transformers 在 reinforcement learning 中的应用，包括表示学习、转移和奖励函数建模，策略优化等多个方面，并讨论了可视化技术和高效训练策略的应用，以提高 transformers 的解释性和效率。同时，讨论了 transformers 在不同领域的应用以及在 reinforcement learning 中的局限性和潜在突破。

Jul, 2023

强化学习中 Transformer 的调研

本文系统回顾了使用 Transformer 在强化学习领域的动机和进展，提供了现有工作的分类，讨论了每个子领域，并总结了未来的发展前景。

Jan, 2023

基于 Transformer 的世界模型需要 100k 次交互

使用变换器对真实世界情节进行自回归处理，生成有意义、新的经历，进而训练超越之前强化学习算法的策略。

Mar, 2023

Transformers 在强化学习任务中的优势：将记忆与信用分配解耦

通过对记忆长度和信用分配长度的定义，并设计简单可配置的任务来衡量这些不同的量，我们的实证结果揭示了 Transformers 可以增强 RL 算法的记忆能力，可以扩展到需要记住 1500 个步骤之前观察的任务，但 Transformers 并不改善长期信用分配。总之，我们的结果解释了 Transformers 在 RL 中的成功原因，同时也凸显了未来研究和基准设计的重要领域。

Jul, 2023

RL$^3$: 通过 RL 内外的 RL$^2$ 提升元强化学习

本文提出了一种 RL$^3$ 算法，该算法将 Task-specific action-values 作为 Traditional RL 学到的输入，并通过将 Traditional RL 和 Meta-RL 组合来在 Long-horizon 和 Out-of-distribution 任务中获得更高的累积回报。

Jun, 2023