Apr, 2022

用对比随机游走发现内在奖励

TL;DR本文旨在展示使用对比随机游走作为好奇心方法以实现更快的收敛至最优策略的有效性。其中,对比随机游走通过神经网络定义随机游走的转移矩阵,学习有意义的状态表示,然后将其作为内在奖励添加到环境奖励中。作者在非表格化稀疏奖励场景中证明了对比随机游走的鲁棒性,并统计表明该方法可以在同样迭代次数下获得最高奖励。作者同时也发现,适应性重启和适当的温度对对比随机游走的性能至关重要。