Apr, 2019

通过观察从反强化学习中超越次优演示

TL;DR本文提出了一种基于Trajectory-ranked Reward EXtrapolation (T-REX)算法的强化学习奖励学习方法,该方法可以从一系列排名不佳的示范中开创性地推断出高质量的奖励函数,并结合深度强化学习方法,在多个Atari游戏任务上实现了超过最佳演示2倍以上的优异表现。