学习未规定模型的奖励函数

Jan, 2018

Learning the Reward Function for a Misspecified Model

Erik Talvitie

TL;DR本研究提出了一种新颖的误差界限，用于解决模型不完美时生成的错误状态如何正确分配奖励值的问题，并在实验中证明其在基于模型的强化学习中的有效性。

Abstract

In model-based reinforcement learning it is typical to treat the problems of learning the dynamics model and learning the reward function