Feb, 2021

基于上下文、离线元强化学习的证明改进——关注与对比学习

TL;DR本文针对离线强化学习中的元学习问题,通过引入任务注意力机制和对比学习目标来提高任务表示的鲁棒性,从而改进了现有算法,并在多个元强化学习基准测试中展示了优越的性能和稳健性。