Feb, 2020

奖励合理 (隐式) 选择:奖励学习的统一形式化

TL;DR研究如何从人类的行为或反馈中学习奖励函数,并提出一种单一的形式化框架,将各种不同类型的行为诠释为人类所做出的奖励选择,这既可用于解读过去的工作,又能为今后的研究提供借鉴和启迪。