Aug, 2023

APART: 采用升序奖励和丢弃法的多样化技能发现

TL;DR在无奖励环境中研究多样化技能发现,使用内在奖励和一个通过轨迹预测技能的判别器进行技能的相互训练,通过使用所有对组合的判别器、新颖的内在奖励函数和辍学正则化技术的方式,取代了标准的一对多(softmax)判别器,所提出的组合方法命名为APART,在简单的网格环境中比以前的方法大大减少了样本数量,研究探究了更简单的算法,通过改变VIC、重新调整内在奖励和调整softmax判别器的温度来实现最大技能,我们相信我们的研究结果揭示了强化学习中技能发现算法成功的关键因素。