Sep, 2024

从示范中学习马尔可夫决策过程中的效用

TL;DR本研究解决了逆强化学习模型中忽视观察代理风险态度的问题,提出了一种新颖的马尔可夫决策过程行为模型,通过效用函数显式表示代理的风险态度。研究发现,该方法及其两种高效算法能够在有限数据条件下有效推断出代理的风险态度,具有实际应用潜力。