Feb, 2022

基于模型的离线元强化学习与正则化

TL;DR该研究论文介绍了一种基于模型的元强化学习方法——MerPO,使用正则化策略优化来实现任务结构推断和元策略安全探索。该方法通过探究“探索”元策略的分布情况和“利用”离线数据集的紧密度之间的平衡,对元强化学习算法进行了改进,并在实验中取得了优异的表现。