Oct, 2019

从黑匣子决策中提取激励

TL;DR本文提出了一种理解算法激励作用的数学框架,将其视为解决马尔可夫决策过程的挑战,并借助求解MDP的工具包(如树形规划、强化学习)来识别每个人在给定模型下受到激励的最佳动作, 并通过两个真实世界环境下的实例展示了该方法的实用性。