教导一个学习代理
我们研究了重复的一阶售价拍卖和一般重复贝叶斯博弈的情况,在这种情况下,一个参与者(学习者)采用了一个无悔学习算法,而另一个参与者(优化者)在了解学习者的算法的情况下,策略化地追求自己的效用最大化。 对于一类被称为基于均值的无悔学习算法,我们证明:(i)在标准(即完全信息)的一阶售价拍卖中,优化者不能获得超过 Stackelberg 效用的效用 -- 这是文献中的标准基准,但是(ii)在贝叶斯一阶售价拍卖中,存在优化者可以获得远高于 Stackelberg 效用的实例。 另一方面,Mansour 等人(2022)证明了一类更复杂的算法,称为无多面体交换后悔算法可以将优化者的效用限制在任意重复贝叶斯博弈(包括贝叶斯一阶售价拍卖)的 Stackelberg 效用上,并提出是否有必要使用无多面体交换后悔算法来限制优化者的效用。对于一般的贝叶斯博弈,在一个合理且必要的条件下,我们证明了无多面体交换后悔算法确实是将优化者的效用限制在 Stackelberg 效用上的必要条件,从而回答了他们的开放性问题。对于贝叶斯一阶售价拍卖,我们通过利用贝叶斯一阶售价拍卖的结构给出了一个简单的改进标准算法来最小化多面体交换后悔。
Feb, 2024
这项研究考虑了一个反复的委托人 - 代理人强盗游戏,委托人仅能通过代理人与环境进行交互。委托人和代理人的目标不一致,选择行动的权限仅留给代理人。然而,委托人可以通过提供激励来影响代理人的决策,这些激励为代理人的回报增加。委托人旨在迭代学习一种激励策略以最大化自己的总效用。该框架扩展了传统的强盗问题,并受到了诸多实际应用的启发,如医疗保健或生态税收,这些领域中传统机制设计理论经常忽视问题的学习方面。我们提出了几乎最优(就 $T$ 而言)的学习算法,用于委托人在多臂和线性背景环境中的遗憾,并通过数值实验验证了我们的理论保证。
Mar, 2024
研究探讨了自私学习代理和学习主体之间的重复逆向选择博弈,代理通过解决多臂赌博机问题来最大化其预期奖励和激励,主体则在保持一致性估计代理的未知奖励与通过提供自适应激励最大化自身效用之间进行权衡。
Aug, 2023
研究了由 Stackelberg 博弈建模的信息获取问题,设计了样本有效的算法来优化评分规则,并保证了代理的行为得到激励,且无关环境状态数的遗憾值上界为 T 的两到三次方根。
Mar, 2023
本研究在多臂赌博 (MAB) 框架下研究重复的主体 - 代理博弈场景,在代理人具有完美知识的情况下,构建了一个估计代理人期望奖励的估计器,并设计了一个低遗憾策略,为主体策略提供了指导,同时在协作交通规划等领域具有一定的应用前景。
Apr, 2023
本文研究了在互联网经济中个体决策者在制定战略选择时的信息生产和消费,重点关注探索、开发和利益激励之间的平衡,并提出了一种不使用任何货币转移的建议政策设计方法以协调决策者。结果表明,经过实验模拟,设计的建议政策可以达到恒定的遗憾值,即使在面对随机收益时也可以达到对数遗憾。
Feb, 2016
本文从计算的角度出发,重点研究了李嘉图和根岑科夫在 Bayesian Persuasion Model 中提出的两个角色 —— 发送者和接收者,以及发送者如何通过优化任务最大化自己的收益。论文重点分析了三种自然输入模型下发情况的最优化问题,并针对每一种模型讨论了其计算复杂度。
Mar, 2015