Jun, 2019

整合人类演示和偏好的学习奖励函数

TL;DR该研究提出了 DemPref 框架,结合演示和偏好查询来学习奖励函数,其对标准偏好学习方法具有更高的效率和更好的性能。