BriefGPT.xyz
Jan, 2018
学习未规定模型的奖励函数
Learning the Reward Function for a Misspecified Model
HTML
PDF
Erik Talvitie
TL;DR
本研究提出了一种新颖的误差界限,用于解决模型不完美时生成的错误状态如何正确分配奖励值的问题,并在实验中证明其在基于模型的强化学习中的有效性。
Abstract
In
model-based reinforcement learning
it is typical to treat the problems of learning the
dynamics model
and learning the
reward function
→