Jul, 2023

通过对比学习在强化学习中发现层次成就

TL;DR在本研究中,我们发现了一种名为近似策略优化(PPO)的简单而多功能的无模型算法,其比之前的方法在最近的实施实践中表现更好。此外,我们还发现PPO代理在某种程度上能够预测下一个要解锁的成就,尽管置信度较低。基于这一发现,我们提出了一种名为成就蒸馏的新颖对比学习方法,该方法增强了代理预测下一个成就的能力。我们的方法在挑战性的Crafter环境中表现出强大的发现层次成就的能力,并以更少的模型参数在样本高效的范围内展示了最先进的性能。