Apr, 2020

CURL:强化学习中的对比无监督表示学习

TL;DR本文提出了一种基于对比学习的无监督表征学习方法 CURL,其可以从原始像素中提取高层特征,并在此基础上进行偏置控制,在 DeepMind Control Suite 和 Atari Games 中均实现了比先前基于像素的方法更好的性能表现,在 10 万个环境交互和环境步骤基准测试中分别表现出了 1.9 倍和 1.2 倍的性能增益。在 DeepMind Control Suite 中,CURL 是第一个能够与使用基于状态特征的方法几乎匹配样本效率的基于图像的算法。我们的代码已开源,并可在此 https URL 下载。