ICLRJan, 2021
强化学习中基于对比行为相似性的嵌入用于泛化
Contrastive Behavioral Similarity Embeddings for Generalization in Reinforcement Learning
Rishabh Agarwal, Marlos C. Machado, Pablo Samuel Castro, Marc G. Bellemare
TL;DR该研究旨在提出一种基于顺序结构的强化学习方法来提高泛化能力,引入一种理论动机的策略相似度测量标准以及对比度表示学习方法,能够测量和嵌入任何状态相似度测量标准,从而达到改善类似于包含虚假相关性的 LQR、从像素到跳跃的任务以及 Distracting DM 控制套件等不同基准下的泛化效果。