BriefGPT.xyz
Nov, 2020
学习如何利用成形奖励:一种新的奖励成形方法
Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping
HTML
PDF
Yujing Hu, Weixun Wang, Hangtian Jia, Yixiang Wang, Yingfeng Chen...
TL;DR
本文提出了一种自适应利用给定塑形奖励函数的算法,通过将塑形奖励作为一个双层优化问题来解决,从而实现了真实奖励的最大化,并基于这个问题,提出了三种基于不同假设的学习算法。实验结果表明,我们的算法可以充分利用有益的塑形奖励,同时忽略无益的塑形奖励或者甚至将它们转化为有益的。
Abstract
reward shaping
is an effective technique for incorporating domain knowledge into
reinforcement learning
(RL). Existing approaches such as potential-based
→