Jan, 2018

学习未规定模型的奖励函数

TL;DR本研究提出了一种新颖的误差界限,用于解决模型不完美时生成的错误状态如何正确分配奖励值的问题,并在实验中证明其在基于模型的强化学习中的有效性。