Apr, 2023

MERMAIDE: 模型元学习中学习者对齐的学习

TL;DR研究如何利用 MERMAIDE 这种基于模型的元学习框架进行干预,以在最小化干预数量的同时,快速适应具有不同学习策略和奖励函数的分布外代理,并在带宽特代理的干预中超越两种基线方法。