Jun, 2024

马尔可夫决策过程的鲁棒奖励设计

TL;DR回报设计问题研究了领导者与追随者之间的相互作用,其中领导者通过修改追随者的奖励函数来塑造追随者的行为以最大化领导者的回报。现有的奖励设计方法依赖于准确模拟追随者对奖励调整的反应,而这可能对模型不准确性敏感。为了解决这个敏感性问题,我们提出了一种解决方案,能够对模型中追随者的不确定性具有鲁棒性,包括:1) 追随者在存在非唯一最佳反应时如何决策;2) 对追随者知觉奖励调整方式的不精确了解;3) 追随者的有限理性。我们的鲁棒解决方案在一定条件下得到保证,并可通过求解混合整数线性规划来获得数值解。对多个测试案例的数值实验表明,我们的解决方案相较于标准方法具有更好的鲁棒性,而且计算成本相对较低。