ICMLMay, 2022

强化学习中基于语言模型的历史压缩

TL;DR文章介绍了一种使用预训练语言变换器(PLT)来表示历史信息以提高采样效率的方法,该方法名为 HELM,通过自动关联筛选过后的预训练标记嵌入,使 actor-critic 网络模型不必学习过去的信息,从而达到比竞争对手更高的采样效率和更好的实验结果。