教导一个学习代理

Feb, 2024

Persuading a Learning Agent

Tao Lin, Yiling Chen

TL;DR在非学习模型中，如果代理使用上下文无懊悔学习算法，那么主体可以确保利用率接近于经典的带承诺非学习模型中主体的最优利用率；如果代理使用上下文无交换懊悔学习算法，那么主体无法获得比带承诺非学习模型中最优利用率更高的利用率；使用基于均值的学习算法，主体可以比非学习模型获得显著更好的结果。这些结论对于任何具有完全信息的广义委托代理问题都成立，包括斯塔克尔伯格博弈和合同设计。

Abstract

We study a repeated bayesian persuasion problem (and more generally, any generalized principal-agent problem with complete information) where the principal does not have →

repeated bayesian persuasion problem generalized principal-agent problem commitment power contextual no-regret learning algorithms mean-based learning algorithms

发现论文，激发创造

与学习代理人的契约

通过学习代理的重复合同，我们提供了一种动态合同的解决方案，这种合同对于知识有限的主体和代理都有利，并且可以应用于不同的时间范围。

Jan, 2024

对首价拍卖中的无懊悔学习者进行策略规划

我们研究了重复的一阶售价拍卖和一般重复贝叶斯博弈的情况，在这种情况下，一个参与者（学习者）采用了一个无悔学习算法，而另一个参与者（优化者）在了解学习者的算法的情况下，策略化地追求自己的效用最大化。对于一类被称为基于均值的无悔学习算法，我们证明：（i）在标准（即完全信息）的一阶售价拍卖中，优化者不能获得超过 Stackelberg 效用的效用 -- 这是文献中的标准基准，但是（ii）在贝叶斯一阶售价拍卖中，存在优化者可以获得远高于 Stackelberg 效用的实例。另一方面，Mansour 等人（2022）证明了一类更复杂的算法，称为无多面体交换后悔算法可以将优化者的效用限制在任意重复贝叶斯博弈（包括贝叶斯一阶售价拍卖）的 Stackelberg 效用上，并提出是否有必要使用无多面体交换后悔算法来限制优化者的效用。对于一般的贝叶斯博弈，在一个合理且必要的条件下，我们证明了无多面体交换后悔算法确实是将优化者的效用限制在 Stackelberg 效用上的必要条件，从而回答了他们的开放性问题。对于贝叶斯一阶售价拍卖，我们通过利用贝叶斯一阶售价拍卖的结构给出了一个简单的改进标准算法来最小化多面体交换后悔。

Feb, 2024

奖励驱动的委托代理赌博游戏中的学习

这项研究考虑了一个反复的委托人 - 代理人强盗游戏，委托人仅能通过代理人与环境进行交互。委托人和代理人的目标不一致，选择行动的权限仅留给代理人。然而，委托人可以通过提供激励来影响代理人的决策，这些激励为代理人的回报增加。委托人旨在迭代学习一种激励策略以最大化自己的总效用。该框架扩展了传统的强盗问题，并受到了诸多实际应用的启发，如医疗保健或生态税收，这些领域中传统机制设计理论经常忽视问题的学习方面。我们提出了几乎最优（就 $T$ 而言）的学习算法，用于委托人在多臂和线性背景环境中的遗憾，并通过数值实验验证了我们的理论保证。

Mar, 2024

具有通信的顺序主 - 代理问题：高效计算与学习

本文研究了一个在信息不完备的情况下，委托人和代理人之间的顺序决策问题。

Jun, 2023

估计和激励带有隐藏回报的不完美知识代理

研究探讨了自私学习代理和学习主体之间的重复逆向选择博弈，代理通过解决多臂赌博机问题来最大化其预期奖励和激励，主体则在保持一致性估计代理的未知奖励与通过提供自适应激励最大化自身效用之间进行权衡。

Aug, 2023

学习激励信息获取：适当计分规则与委托代理模型相遇

研究了由 Stackelberg 博弈建模的信息获取问题，设计了样本有效的算法来优化评分规则，并保证了代理的行为得到激励，且无关环境状态数的遗憾值上界为 T 的两到三次方根。

Mar, 2023

未观测到代理奖励和完全知识代理的重复委托代理博弈

本研究在多臂赌博 (MAB) 框架下研究重复的主体 - 代理博弈场景，在代理人具有完美知识的情况下，构建了一个估计代理人期望奖励的估计器，并设计了一个低遗憾策略，为主体策略提供了指导，同时在协作交通规划等领域具有一定的应用前景。

Apr, 2023

多个非近视代理人的重复合约：政策遗憾与有限责任

研究重复合同中的非响应均衡、赌博算法和有限责任合同的对策理论。

Feb, 2024

贝叶斯探索：在贝叶斯博弈中激励探索

本文研究了在互联网经济中个体决策者在制定战略选择时的信息生产和消费，重点关注探索、开发和利益激励之间的平衡，并提出了一种不使用任何货币转移的建议政策设计方法以协调决策者。结果表明，经过实验模拟，设计的建议政策可以达到恒定的遗憾值，即使在面对随机收益时也可以达到对数遗憾。

Feb, 2016

算法贝叶斯引导

本文从计算的角度出发，重点研究了李嘉图和根岑科夫在 Bayesian Persuasion Model 中提出的两个角色 —— 发送者和接收者，以及发送者如何通过优化任务最大化自己的收益。论文重点分析了三种自然输入模型下发情况的最优化问题，并针对每一种模型讨论了其计算复杂度。

Mar, 2015