AAAINov, 2018

使用 System 1 和 System 2 的强化学习和逆向强化学习

TL;DR探讨个体行为目标的两种模型之间的区别,一种是理性演员模型,另一种是双系统模型,并在此基础上提出了一种新的基于 IRL 算法的方法来正确地推断双系统决策者的目标。