Feb, 2021

表示很重要:为序贯决策进行离线预训练

TL;DR本文研究了如何将离线数据转换为强化学习模型的有效训练,通过使用无监督学习目标进行预训练的方法,本文提出了一种能够改善从离线数据训练得到的强化学习模型性能的方案,并通过实验证明了其有效性。