Jun, 2021

决策变压器:通过序列建模的强化学习

TL;DR本文基于序列建模思路,提出一种将强化学习抽象为序列建模问题的框架,使用 Transformer 架构和相关的语言建模技术(如 GPT-x 和 BERT)来解决增强学习任务,其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报,其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。