Jun, 2021
决策变压器:通过序列建模的强化学习
Decision Transformer: Reinforcement Learning via Sequence Modeling
TL;DR本文基于序列建模思路,提出一种将强化学习抽象为序列建模问题的框架,使用Transformer架构和相关的语言建模技术(如GPT-x和BERT)来解决增强学习任务,其中提出的Decision Transformer模型可以通过自回归模型来输出未来的动作并获得预期回报,其性能在Atari、OpenAI Gym和Key-to-Door等实验中达到了业界领先水平。