Apr, 2023
未观测到代理奖励和完全知识代理的重复委托代理博弈
Repeated Principal-Agent Games with Unobserved Agent Rewards and Perfect-Knowledge Agents
Ilgin Dogan, Zuo-Jun Max Shen, Anil Aswani
TL;DR本研究在多臂赌博 (MAB) 框架下研究重复的主体 - 代理博弈场景,在代理人具有完美知识的情况下,构建了一个估计代理人期望奖励的估计器,并设计了一个低遗憾策略,为主体策略提供了指导,同时在协作交通规划等领域具有一定的应用前景。