BriefGPT.xyz
May, 2019
随机专家蒸馏: 通过专家策略支持来进行模仿学习估计
Random Expert Distillation: Imitation Learning via Expert Policy Support Estimation
HTML
PDF
Ruohan Wang, Carlo Ciliberto, Pierluigi Amadori, Yiannis Demiris
TL;DR
本文提出一种新的模仿学习框架,通过估计专家策略的支持来计算固定的奖励函数,将模仿学习重新定位到标准的强化学习设置中,证明了该奖励函数在离散和连续域上的有效性,并在不同的强化学习算法下实现了与现有技术相当或更好的表现。
Abstract
We consider the problem of
imitation learning
from a finite set of
expert trajectories
, without access to
reinforcement signals
. The class
→