Oct, 2023

信息内容探索

TL;DR稀疏奖励环境对于强化学习代理是具有挑战性的,本文提出了一种新的内在奖励,系统地量化探索行为并通过最大化代理路径的信息内容来促进状态覆盖,通过与其他探索性内在奖励技术(即好奇心驱动学习和随机网络蒸馏)进行比较,证明了该信息理论奖励具有高效探索,其在包括 Montezuma Revenge 在内的各种游戏中的表现优于其他方法。最后,我们提出了一种在离散压缩的潜在空间中最大化信息内容的扩展方法,提高了样本效率并推广到连续状态空间。