ICLRFeb, 2022

基于模型的离线元强化学习与正则化

TL;DR该研究论文介绍了一种基于模型的元强化学习方法 ——MerPO,使用正则化策略优化来实现任务结构推断和元策略安全探索。该方法通过探究 “探索” 元策略的分布情况和 “利用” 离线数据集的紧密度之间的平衡,对元强化学习算法进行了改进,并在实验中取得了优异的表现。