May, 2023

面向未来条件的无监督预训练:决策Transformer

TL;DR本文提出了一种基于未来信息进行无监督强化学习预训练的概念简单的方法——Pretrained Decision Transformer(PDT),并探究了如何在处理次优数据时提升其性能。实验证明,PDT 在离线数据中提取多样化的行为,且可通过在线微调控制采样高回报的行为。