Mar, 2024

奖励驱动的委托代理赌博游戏中的学习

TL;DR这项研究考虑了一个反复的委托人 - 代理人强盗游戏,委托人仅能通过代理人与环境进行交互。委托人和代理人的目标不一致,选择行动的权限仅留给代理人。然而,委托人可以通过提供激励来影响代理人的决策,这些激励为代理人的回报增加。委托人旨在迭代学习一种激励策略以最大化自己的总效用。该框架扩展了传统的强盗问题,并受到了诸多实际应用的启发,如医疗保健或生态税收,这些领域中传统机制设计理论经常忽视问题的学习方面。我们提出了几乎最优(就 $T$ 而言)的学习算法,用于委托人在多臂和线性背景环境中的遗憾,并通过数值实验验证了我们的理论保证。