ICLROct, 2017

非静态且竞争环境中的元学习连续适应

TL;DR研究了如何在动态变化和对抗性场景中通过元学习算法实现连续自适应,并证明元学习能够在少样本情况下实现比反应式基线更高效的自适应;同时设计了一个新的多智能体竞争环境 RoboSumo 并定义了迭代自适应游戏以对各种连续自适应策略进行测试。通过对学习和竞争的一组代理人的实验表明,元学习是最适合的。