AAAIApr, 2021

潜在贝叶斯惊喜驱动下的好奇心驱动探索

TL;DR利用人工好奇心提高强化学习系统的探索能力,本文提出了一种利用贝叶斯惊奇度作为衡量模型参数先验和后验之间差异的方法,将其应用于代理模型的潜在空间中,大大降低计算成本,研究表明其对连续任务的环境探索和视频游戏分数的影响要好于当前最先进技术,同时具有对抗随机性环境的鲁棒性。