Nov, 2022

通过受限制优化提升内在奖励

TL;DR该研究提出了一种名为 EIPO 的优化策略,通过自动调整内在奖励的重要性来平衡任务奖励和内在奖励的关系,以获得最佳探索结果。经过在 61 个 ATARI 游戏中的测试,表现优异。