Nov, 2019

正例-未标注奖励学习

TL;DR本文针对学习奖励模型所面临的挑战,探讨了正例-无标记学习算法(positive-unlabeled learning)在奖励学习问题中的应用,并验证该方法可以同时解决奖励低估和高估问题,从而显著提高 both GAIL and supervised 奖励学习的效果。