May, 2024

审视我们忽略的事物:在基于上下文的离线元强化学习中驾驭任务表征的转移

TL;DR通过最大化互信息来提高任务表示能够实现性能的单调改善,其中,RETRO 算法重新调整任务表示偏移,从而在离线元强化学习中取得了 SOTA 的渐近性能、训练稳定性和训练时间消耗的实证结果。