AAAISep, 2020

基于对比学习的元强化学习有效上下文方法

TL;DR提出一种名为 CCM 的元强化学习框架,通过对比不同任务来训练一个精简有效的上下文编码器,并训练一个单独的探索策略和理论推导一个新的信息增益目标,从而在几步内收集信息丰富的轨迹。实验证明,CCM 通过分别解决之前提到的问题,优于现有算法。