主体 - 代理多任务:最优合同的统一性及其通过仪器回归的高效学习
该论文主要研究了在线学习视角下的重复主体 - 代理问题,研究了当主体每轮与单个代理进行合同交互时的三种不同情境,并提出了不同的方法和技术来设计学习算法。此外,还研究了团队生产模型,并提出了一种有效找到最优合同的方法。
Mar, 2024
研究主体 - 代理问题中的主体为了引导代理采取成本高且不可观察的行动以获得有利结果而承诺一种与结果相关的支付方案,考虑了与代理进行多轮合同承诺的问题的推广,设计了一种算法,在观察到每轮的结果后,能够以高概率学习到近似最优的合同,对于行动空间较小的情景,在最优合同学习方面取得了突破性进展,并在相关在线学习环境下用于最大化主体累积效用以提供近似为 O (T^4/5) 的遗憾上界,从而明显改善了之前已知的遗憾上界。
Sep, 2023
研究探讨了自私学习代理和学习主体之间的重复逆向选择博弈,代理通过解决多臂赌博机问题来最大化其预期奖励和激励,主体则在保持一致性估计代理的未知奖励与通过提供自适应激励最大化自身效用之间进行权衡。
Aug, 2023
研究在线环境下的隐藏操作代理问题,介绍一种在线学习算法,提出一个关于 Stackelberg 遗憾的上界,并使用球形编码的覆盖数来限制契约设计的困难性和契约设计中的离散化误差,并提出解决方案,给出关于合同和行动空间的无限制上界。
Nov, 2022
通过合同设计解决在线学习问题中不同利益相关方的经济利益一致性,提出一种理论框架来解决机器学习中的代理问题,并设计了有效的动态规划算法和无悔学习算法以实现最优合同和平衡探索与开发的挑战。
Jul, 2024
本文研究了基于隐藏行动模型的委托 - 代理问题,在其中委托人通过合同激励代理人参与项目。我们探讨了有界支付的合同是否可学习并近似最优。我们的主要结果是两个学习算法,可以在文献中的两个标准假设下通过多项式数量的查询找到近乎最优的有界合同。我们的多项式查询复杂性上界表明,标准假设足以在一般情况下实现对已知下界的指数改进。与现有算法不同,我们的算法直接学习基础的结果分布。关于有界合同的近似最优性,我们发现它们在乘法或加法逼近方面可能远非最优,但满足混合逼近的概念。
Feb, 2024
这项研究考虑了一个反复的委托人 - 代理人强盗游戏,委托人仅能通过代理人与环境进行交互。委托人和代理人的目标不一致,选择行动的权限仅留给代理人。然而,委托人可以通过提供激励来影响代理人的决策,这些激励为代理人的回报增加。委托人旨在迭代学习一种激励策略以最大化自己的总效用。该框架扩展了传统的强盗问题,并受到了诸多实际应用的启发,如医疗保健或生态税收,这些领域中传统机制设计理论经常忽视问题的学习方面。我们提出了几乎最优(就 $T$ 而言)的学习算法,用于委托人在多臂和线性背景环境中的遗憾,并通过数值实验验证了我们的理论保证。
Mar, 2024