May, 2023

离线元强化学习与基于数据分布的在线适应

TL;DR本文提出了一种基于不确定性量化和有效任务置信推断的新方法框架 IDAQ,该方法通过产生正分布情境来解决离线学习数据集和在线自适应之间的转换奖励分布漂移,实现了元 - 强化学习的任务自适应和较高的性能表现。