Apr, 2023
MERMAIDE: 模型元学习中学习者对齐的学习
MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning
Arundhati Banerjee, Soham Phade, Stefano Ermon, Stephan Zheng
TL;DR研究如何利用 MERMAIDE 这种基于模型的元学习框架进行干预,以在最小化干预数量的同时,快速适应具有不同学习策略和奖励函数的分布外代理,并在带宽特代理的干预中超越两种基线方法。