Mar, 2024

SplAgger: 元强化学习的拆分聚合

TL;DR通过研究表明,即使在没有任务推断目标的情况下,任务推断序列模型仍然是有益的,并提出了 SplAgger 方法,通过使用置换变体和不变体组件,以在连续控制和记忆环境中胜过所有基线。