ICMLDec, 2019

通过评估假设行为学习人类目标

TL;DR通过最大限度地提高信息价值的可跟踪代理来学习用户奖励模型,以与强化学习中未知动态、未知奖励函数和未知不安全状态的用户目标相一致。