ICMLMay, 2023
面向未来条件的无监督预训练:决策 Transformer
Future-conditioned Unsupervised Pretraining for Decision Transformer
Zhihui Xie, Zichuan Lin, Deheng Ye, Qiang Fu, Wei Yang...
TL;DR本文提出了一种基于未来信息进行无监督强化学习预训练的概念简单的方法 ——Pretrained Decision Transformer(PDT),并探究了如何在处理次优数据时提升其性能。实验证明,PDT 在离线数据中提取多样化的行为,且可通过在线微调控制采样高回报的行为。