Oct, 2022

无监督强化学习的混合惊喜

TL;DR提出了一种名为 MOSS 的策略学习方法,通过训练一个同时最大化和最小化惊喜的混合组件来解决先前基于最大惊喜或最小惊喜的方法在真实世界环境中遇到的对环境动态熵的假设问题。实验结果表明,该方法在无监督强化学习领域达到了最新的最优表现。