Apr, 2022

价值梯度加权的基于模型的强化学习

TL;DR本文提出了一种基于价值梯度加权的模型学习方法(VaGraM),通过改进价值感知模型的学习,提高在小模型容量和存在干扰状态维度等具有挑战性的环境下的 Model-based reinforcement learning (MBRL) 的性能。与常用的基于最大似然估计(MLE)的方法相比,我们的方法表现更优