Sep, 2018

主动反向奖励设计

TL;DR通过与用户交互,选择最能反映真实回报的问题来迭代AI代理的奖励函数设计,我们的方法优于Inverse Reward Design,且可以推断非线性奖励函数,包括可解释的线性奖励函数。