Apr, 2023

未观测到代理奖励和完全知识代理的重复委托代理博弈

TL;DR本研究在多臂赌博 (MAB) 框架下研究重复的主体 - 代理博弈场景,在代理人具有完美知识的情况下,构建了一个估计代理人期望奖励的估计器,并设计了一个低遗憾策略,为主体策略提供了指导,同时在协作交通规划等领域具有一定的应用前景。