Jun, 2024

iQRL - 隐式量化表示用于高效强化学习

TL;DR使用自监督的潜在状态一致性损失提出了一种有效的表示学习方法,通过量化潜在表示以保留表示的秩,命名为 iQRL:隐式量化强化学习,可与任何无模型强化学习算法兼容,并在 DeepMind 控制套件的连续控制基准中表现优异,超过其他最近提出的表示学习方法。