ICMLJun, 2023

反差式贝叶斯自适应深度强化学习

TL;DR本文提出了一种基于对比学习方法的元 RL 算法 ContraBAR,可以在状态观测及基于图像观测的领域中有效地学习 Bayes 最优行为,并可以与图像增强相结合,用于领域随机化,并可以无缝地应用于在线和离线元 RL 设置。