ICMLJul, 2022

对比上限置信区间算法:在在线强化学习中具有可证明高效的对比自监督学习

TL;DR通过最小化对比损失,提取正确的特征表达,将自对比自监督学习引入马尔可夫决策过程和马尔可夫游戏中,进一步提出结合在线 RL 算法的 UCB-type 算法,理论上提出我们的算法恢复真实表示,并同时在学习最优政策和 Nash 平衡方面实现样本效率。