ICMLMay, 2024

重新思考 Transformer 在解决 POMDP 中的应用

TL;DR这篇论文研究了在现实世界场景中,像强化学习(RL)这样的序贯决策算法不可避免地面对具有部分可观察性的环境,着重探讨了流行架构 Transformer 在部分可观察马尔可夫决策过程(POMDPs)中的有效性,并揭示了它的理论局限性,将可被 Transformer 难以建模的正则语言归约为 POMDPs,这对于 Transformer 在学习 POMDP 特定的归纳偏见构成了重大挑战,因为 Transformer 缺乏像 RNNs 这样的其他模型中固有的循环特性,该论文质疑了 Transformer 作为序列模型应用于 RL 的普遍信念,并提出引入逐点循环结构,深度线性循环单元(LRU)作为部分可观察 RL 的一个合适的替代品,并通过实证结果凸显了 Transformer 的次优性能和 LRU 的可观实力。