ICMLAug, 2021

APS:基于后继特征的主动预训练

TL;DR本文提出了一种新的强化学习的无监督预训练目标,利用非参数熵最大化和变分继承者特征相结合,提出了 APS 方法,比现有方法表现更好。APS 通过非参数熵最大化探索环境数据,通过变分继承者特征学习行为。在 Atari 100k 数据效率基准测试中,APS 方法比结合无监督预训练和任务特定调参的先前方法表现显著更好。