Oct, 2022

卷积神经网络在奖励塑造中的应用

TL;DR本文提出了一种用 CNN 进行的潜在基于价值的奖励塑造机制 VIN-RS,该方法基于 Hidden Markov Model 的信息传递机制对 CNN 进行训练,并通过自我学习的卷积过滤器估计环境的转移矩阵,实现了有效的潜在函数的构建。通过对表格游戏、Atari 2600 和 MuJoCo 的实验表明,与现有技术相比,VIN-RS 具有更快的学习速度和最大累积奖励。