Oct, 2021

非监督强化学习的信息几何

TL;DR本文研究发现基于相互信息最大化的无监督技能发现算法不一定对于所有潜在奖励函数都能学出最优技能,但它们提供了一个最优初始状态以最小化对抗选择的奖励函数的遗憾。