AAAIOct, 2021

为了更好的人机协作,向人类解释奖励函数

TL;DR介绍奖励解释技术的信息模态,研究了多个不同领域中奖励解释技术的相对效能并提出了四个领域复杂性轴线。