IJCAIMay, 2021

跟踪任务非稳态性的元强化学习

TL;DR提出了一种基于元学习和显式跟踪任务演化的新算法(TRIO),该方法在训练期间通过学习变分模块和探索策略来识别潜在参数以快速适应相关任务,并在测试期间通过在线跟踪潜在参数来减少当前和未来任务的不确定性。