ICMLApr, 2019

通过观察从反强化学习中超越次优演示

TL;DR本文提出了一种基于 Trajectory-ranked Reward EXtrapolation (T-REX) 算法的强化学习奖励学习方法,该方法可以从一系列排名不佳的示范中开创性地推断出高质量的奖励函数,并结合深度强化学习方法,在多个 Atari 游戏任务上实现了超过最佳演示 2 倍以上的优异表现。