ICLRJan, 2021

强化学习中基于对比行为相似性的嵌入用于泛化

TL;DR该研究旨在提出一种基于顺序结构的强化学习方法来提高泛化能力,引入一种理论动机的策略相似度测量标准以及对比度表示学习方法,能够测量和嵌入任何状态相似度测量标准,从而达到改善类似于包含虚假相关性的 LQR、从像素到跳跃的任务以及 Distracting DM 控制套件等不同基准下的泛化效果。