Oct, 2018

通过特征和演示教授逆强化学习者

TL;DR研究学习者和专家在视角不一致的情况下,利用逆强化学习算法从专家演示数据中学习近似最优策略的方法。并引入了“教学风险”概念,衡量在这种情况下,学习者需要付出的非最优代价,提出了专家可以通过更新学习者的视角,降低教学风险的教学方案。