多个非近视代理人的重复合约:政策遗憾与有限责任
该论文主要研究了在线学习视角下的重复主体 - 代理问题,研究了当主体每轮与单个代理进行合同交互时的三种不同情境,并提出了不同的方法和技术来设计学习算法。此外,还研究了团队生产模型,并提出了一种有效找到最优合同的方法。
Mar, 2024
本文提出了一种基于乐观的镜像下降的无悔策略算法,可以在非稳态环境下实现 O (sqrt (T)) 的后悔度,并可在变分稳定游戏中收敛到纳什均衡。
Apr, 2021
本研究在多臂赌博 (MAB) 框架下研究重复的主体 - 代理博弈场景,在代理人具有完美知识的情况下,构建了一个估计代理人期望奖励的估计器,并设计了一个低遗憾策略,为主体策略提供了指导,同时在协作交通规划等领域具有一定的应用前景。
Apr, 2023
研究主体 - 代理问题中的主体为了引导代理采取成本高且不可观察的行动以获得有利结果而承诺一种与结果相关的支付方案,考虑了与代理进行多轮合同承诺的问题的推广,设计了一种算法,在观察到每轮的结果后,能够以高概率学习到近似最优的合同,对于行动空间较小的情景,在最优合同学习方面取得了突破性进展,并在相关在线学习环境下用于最大化主体累积效用以提供近似为 O (T^4/5) 的遗憾上界,从而明显改善了之前已知的遗憾上界。
Sep, 2023
这项研究考虑了一个反复的委托人 - 代理人强盗游戏,委托人仅能通过代理人与环境进行交互。委托人和代理人的目标不一致,选择行动的权限仅留给代理人。然而,委托人可以通过提供激励来影响代理人的决策,这些激励为代理人的回报增加。委托人旨在迭代学习一种激励策略以最大化自己的总效用。该框架扩展了传统的强盗问题,并受到了诸多实际应用的启发,如医疗保健或生态税收,这些领域中传统机制设计理论经常忽视问题的学习方面。我们提出了几乎最优(就 $T$ 而言)的学习算法,用于委托人在多臂和线性背景环境中的遗憾,并通过数值实验验证了我们的理论保证。
Mar, 2024
我们针对重复委托选择问题进行了研究,首次考虑了 Kleinberg and Kleinberg, EC'18 的在线学习变体。在这个模型中,一个负责人与一个拥有外生解集的代理人反复交互,以寻找有效的解。每个解对负责人和代理人都有不同的效用,并且代理人可能以一种自私的方式提出解,以最大化自己的效用。为了减轻这种行为,负责人宣布了一个合适的集合,筛选出一定的解集。然而,负责人事先对解集的分布没有任何信息。因此,负责人会动态地宣布各种合适的集合以有效地学习分布。负责人的目标是最小化与在事后的最优解集相比的累积后悔。我们探讨了问题设置的两个维度:代理人是否表现为短视行为或在多个轮次中进行策略化,并且解是否产生确定性或随机效用。我们的分析主要对一些情况进行了表征,从而揭示了重复委托过程在不同情况下的兴衰。
Oct, 2023
研究了两个智能体在重复对局中报酬和悔恨之间的权衡,提出了一种广义均衡概念,讨论了不同对手情况下的最优战略和可行方案,探究了利用这种广义均衡学习最优策略的方法。
May, 2023
在非学习模型中,如果代理使用上下文无懊悔学习算法,那么主体可以确保利用率接近于经典的带承诺非学习模型中主体的最优利用率;如果代理使用上下文无交换懊悔学习算法,那么主体无法获得比带承诺非学习模型中最优利用率更高的利用率;使用基于均值的学习算法,主体可以比非学习模型获得显著更好的结果。这些结论对于任何具有完全信息的广义委托代理问题都成立,包括斯塔克尔伯格博弈和合同设计。
Feb, 2024
研究在线环境下的隐藏操作代理问题,介绍一种在线学习算法,提出一个关于 Stackelberg 遗憾的上界,并使用球形编码的覆盖数来限制契约设计的困难性和契约设计中的离散化误差,并提出解决方案,给出关于合同和行动空间的无限制上界。
Nov, 2022