变量动作环境的 Transformer 作为策略

AAAIJan, 2023

变量动作环境的 Transformer 作为策略

Transformers as Policies for Variable Action Environments

Niklas Zwingenberger

TL;DR研究了在变量行动环境中，使用 Transformer 编码器进行策略设计的有效性，证明了使用 PPO 算法用于 Gym-$\mu$RTS 环境中训练代理的可行性，并与使用 GridNet 架构的下一个最佳 RL 代理相比，使用了一半的计算资源，最终的代理能够实现更高的回报。

Abstract

In this project we demonstrate the effectiveness of the transformer encoder as a viable architecture for policies in variable action environments. Using it, we train an agent using →

transformer encoder variable action environments proximal policy optimisation gym-$\mu$rts environment gridnet architecture

发现论文，激发创造

提升物联网智能性：基于 Transformer 的强化学习方法

通过将 transformer 架构与 Proximal Policy Optimization（PPO）相结合，本文引入了一种新颖的框架来解决物联网应用中复杂环境下智能决策中的挑战，通过利用 transformer 的自注意机制，增强了强化学习代理在动态物联网环境中的理解和行动能力，从而提高了决策过程的效率。通过在智能家居自动化和工业控制系统等各种物联网场景中进行实证实验证明了该方法的有效性，显示了决策效率和适应性的显著提高。该研究的贡献包括对处理异构物联网数据中 transformer 的作用进行详尽的探索，对框架在不同环境中性能的全面评估，以及与传统强化学习方法进行的基准测试。结果表明该方法显著提高了强化学习代理在物联网生态系统中应对复杂性的能力，凸显了该方法在物联网领域智能自动化和决策制定领域的潜力。

Apr, 2024

Q-Learning 的稳定 Transformer-based 动作序列生成

本文提出了一种基于 Transformer 的 Deep Q-Learning 方法，该方法在稳定性和 Atari 基准方面表现良好，并为探究 Transformer 与强化学习之间的关系提供了额外见解。

Oct, 2020

ENTROPY: 环境转换器和脱机策略优化

该研究提出了一种基于序列建模的架构，即 “环境变换器（Environment Transformer）”，以解决先前基于模型的离线强化学习方法在生成多步轨迹时缺乏长期预测能力的问题，并通过该架构提出了一种新的名为 ENTROPY 的强化学习算法，该算法通过通过 “环境变换器” 学习动态模型和奖励函数，并执行离线策略优化。该算法在 MuJoCo 连续控制 RL 环境上进行了评估，结果表明，相对于现有的基于模型的离线方法，ENTROPY 表现出更强大的长期轨迹预测能力，并与目前最先进的基于模型和基于模型的离线强化学习方法相比表现优秀。

Mar, 2023

Action Q-Transformer：使用动作查询的编码器 - 解码器模型进行深度强化学习的视觉解释

本文提出了一种基于 Q-learning 的深度强化学习方法 ——Action Q-Transformer (AQT)，它引入了一个 Transformer 编码器 - 解码器结构来实现对代理决策的高度可解释性。我们利用 AQT 在 Atari 游戏任务中实现了代理的决策详细分析，并通过实验结果证明了该方法在某些游戏中可以实现比基线更高的性能。

Jun, 2023

UPDeT：基于 Transformer 的策略解耦通用多智能体强化学习

本文提出了一种称为 Universal Policy Decoupling Transformer (UPDeT) 的 transformer-based 模型，可插入任何多智能体强化学习管道并具备强大的泛化能力，证明了相对于现有方法具有优异的迁移能力，在大规模 SMAC 多智能体竞争游戏中取得了显著的表现和训练速度（快 10 倍）。

Jan, 2021

决策变压器：通过序列建模的强化学习

本文基于序列建模思路，提出一种将强化学习抽象为序列建模问题的框架，使用 Transformer 架构和相关的语言建模技术（如 GPT-x 和 BERT）来解决增强学习任务，其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报，其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。

Jun, 2021

离线强化学习的多目标决策 Transformer

离线强化学习以多目标优化问题的形式重新定义为序列建模任务，引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制，达到或超过当前最先进方法的性能。

Aug, 2023

神经近端 / 信任区域策略优化实现全局最优策略

本文研究使用神经网络来完成深度强化学习中的策略优化，其中包括策略梯度和动作价值函数。在此基础上，通过分析无限维镜像下降的全局收敛性，证明了 PPO 和 TRPO 在使用过度参数化神经网络时收敛于全局最优策略，且收敛速度为次线性。

Jun, 2019

多游戏决策转换器

本研究探讨了采用 transformer-based model 方法训练的多用途强化学习代理程序在 Atari 游戏中的表现，发现使用 Multi-Game Decision Transformer 模型的性能和可伸缩性最佳，并提供预训练模型和代码以鼓励该方向的进一步研究。

May, 2022

行动前先思考：将语言推理与行动交错的统一策略

提出了一种将 Transformer 模型与强化学习相结合，并在 BabyAI 任务上表现出色的新方法，其中模型输出既包含动作，也包含文本描述。

Apr, 2023