May, 2019

随机专家蒸馏:通过专家策略支持来进行模仿学习估计

TL;DR本文提出一种新的模仿学习框架,通过估计专家策略的支持来计算固定的奖励函数,将模仿学习重新定位到标准的强化学习设置中,证明了该奖励函数在离散和连续域上的有效性,并在不同的强化学习算法下实现了与现有技术相当或更好的表现。