Mar, 2024

利用不变性学习基于动作的表示

TL;DR使用动作双模拟编码,通过扩展单步可控性以递归的不变性约束,提出能捕捉长时序元素的多步可控性度量,通过在无奖励、均匀随机数据上进行预训练,提高了在多个环境中的样本效率,并展示了动作双模拟编码所捕捉到的信息。