Nov, 2023

梦想适应:通过潜在目标想象和马尔可夫决策过程想象的元强化学习

TL;DRMetaDreamer 是一种基于上下文的元强化学习算法,通过元想象和 MDP 想象来减少实际训练任务和数据的需求,在学习未知任务时通过从类似任务中转移先前学习的知识,实验结果表明 MetaDreamer 在数据效率和插值推广方面胜过现有的方法。