Sep, 2022

从对称性学习:具有对称数据和语言指示的元强化学习

TL;DR提出了一种双 MDP 元强化学习方法,该方法将语言指令和对称数据结合到元 RL 中,能够显著提高元强化学习的泛化能力和学习效率。