重新思考 Transformer 在解决 POMDP 中的应用

ICMLMay, 2024

重新思考 Transformer 在解决 POMDP 中的应用

Rethinking Transformers in Solving POMDPs

Chenhao Lu, Ruizhe Shi, Yuyao Liu, Kaizhe Hu, Simon S. Du...

TL;DR这篇论文研究了在现实世界场景中，像强化学习（RL）这样的序贯决策算法不可避免地面对具有部分可观察性的环境，着重探讨了流行架构 Transformer 在部分可观察马尔可夫决策过程（POMDPs）中的有效性，并揭示了它的理论局限性，将可被 Transformer 难以建模的正则语言归约为 POMDPs，这对于 Transformer 在学习 POMDP 特定的归纳偏见构成了重大挑战，因为 Transformer 缺乏像 RNNs 这样的其他模型中固有的循环特性，该论文质疑了 Transformer 作为序列模型应用于 RL 的普遍信念，并提出引入逐点循环结构，深度线性循环单元（LRU）作为部分可观察 RL 的一个合适的替代品，并通过实证结果凸显了 Transformer 的次优性能和 LRU 的可观实力。

Abstract

sequential decision-making algorithms such as reinforcement learning (RL) in real-world scenarios inevitably face environments with partial observability. This paper scrutinizes the effectiveness of a popular arc

sequential decision-making algorithms reinforcement learning transformers partially observable markov decision processes (pomdps)deep linear recurrent unit (lru)

发现论文，激发创造

基于深度强化学习的 POMDP 推断和鲁棒解决方案：铁路最优维护应用

本文提出一个结合推断和强化学习的框架，通过深度强化学习对 POMDP 问题进行鲁棒解决。通过 Markov Chain Monte Carlo 抽样来联合推断出所有的转换和观察模型参数，并将参数分布通过域随机化融入到模型不确定性的解决中，解决该方法适用于铁路资产维护规划等实际问题。

Jul, 2023

基于记忆的深度强化学习在 POMDPs 中的应用

本文介绍了一种基于 LSTM-TD3 的方法，该方法引入了记忆组件以应对部分可观察 MDPs，相比其他 DRL 算法，在具有部分可观察 MDPs 的情况下，该方法具有显著的优势，包括处理丢失和噪声观察数据的能力。

Feb, 2021

强化学习中的 Transformers：综述

本文介绍了 transformers 在 reinforcement learning 中的应用，包括表示学习、转移和奖励函数建模，策略优化等多个方面，并讨论了可视化技术和高效训练策略的应用，以提高 transformers 的解释性和效率。同时，讨论了 transformers 在不同领域的应用以及在 reinforcement learning 中的局限性和潜在突破。

Jul, 2023

重温具有记忆单子的循环强化学习

强化学习中，使用记忆模型如 RNN 和 transformers 来处理部分可观测的马尔科夫决策过程（POMDPs），但这些模型在处理长序列时无法很好地扩展，与一种新兴的线性循环模型相比，其性能较差。我们发现这些模型的循环更新是一个幺半群，从而正式定义了一种新颖的记忆幺半群框架。我们重新审视了强化学习中循环网络的传统批处理方法，突出了理论和实证上的不足。利用记忆幺半群的特性，我们提出了一种新的批处理方法，以改善样本效率，提高回报以及简化强化学习中循环损失函数的实现。

Feb, 2024

序列决策的大规模序列模型：一项调查

该论文综述了基于 Transformer 的序列模型在解决序列决策问题、加强学习等方面的应用，分类讨论了不同的应用方式，并提出了未来研究的潜在方向，包括理论基础、网络架构、算法和高效训练系统。

Jun, 2023

决策变压器：通过序列建模的强化学习

本文基于序列建模思路，提出一种将强化学习抽象为序列建模问题的框架，使用 Transformer 架构和相关的语言建模技术（如 GPT-x 和 BERT）来解决增强学习任务，其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报，其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。

Jun, 2021

Q-Learning 的稳定 Transformer-based 动作序列生成

本文提出了一种基于 Transformer 的 Deep Q-Learning 方法，该方法在稳定性和 Atari 基准方面表现良好，并为探究 Transformer 与强化学习之间的关系提供了额外见解。

Oct, 2020

利用 Transformer 实现强化学习中的可解释时间逻辑运动规划

通过将 Transformer 模块与强化学习相结合，开发了一个基于二次 Transformer 引导的时间逻辑框架（T2TL），以学习并执行各种自适应控制任务。其采用的 LTL 指令通过 co-safe LTL 指定，可以将复杂任务分解为可学习的子目标，从而将非马尔可夫奖励决策过程转换为马尔可夫过程，并通过同时学习多个子任务来提高采样效率。

Sep, 2022

强化学习中 Transformer 的调研

本文系统回顾了使用 Transformer 在强化学习领域的动机和进展，提供了现有工作的分类，讨论了每个子领域，并总结了未来的发展前景。

Jan, 2023

关于提高 POMDP 上深度强化学习的方法

提出了 Action-specific Deep Recurrent Q-Network (ADRQN) 的新体系结构，该体系结构使用 LSTM 层来学习潜在状态，以增强在多个部分可观察领域的学习性能，包括 Atari 游戏。

Apr, 2018