主体 - 代理多任务：最优合同的统一性及其通过仪器回归的高效学习

May, 2024

主体 - 代理多任务：最优合同的统一性及其通过仪器回归的高效学习

Principal-Agent Multitasking: the Uniformity of Optimal Contracts and its Efficient Learning via Instrumental Regression

PDF

Shiliang Zuo

TL;DR这项研究探讨了多任务委托 - 代理问题，通过研究成本函数、边际效用和在线学习方法等，寻求了最优合约的解决方案。

Abstract

This work studies the multitasking principal-agent problem. I first show a ``uniformity'' result. Specifically, when the tasks are perfect substitutes, and the agent's cost function is homogeneous to a certain degree, then the →

multitasking principal-agent problem optimal contract regression problem instrumental regression problem online learning

发现论文，激发创造

网络合同设计的新视角：异质、同质、非近视代理人和团队生产

该论文主要研究了在线学习视角下的重复主体 - 代理问题，研究了当主体每轮与单个代理进行合同交互时的三种不同情境，并提出了不同的方法和技术来设计学习算法。此外，还研究了团队生产模型，并提出了一种有效找到最优合同的方法。

Mar, 2024

学习最优合同：如何利用小的行动空间

研究主体 - 代理问题中的主体为了引导代理采取成本高且不可观察的行动以获得有利结果而承诺一种与结果相关的支付方案，考虑了与代理进行多轮合同承诺的问题的推广，设计了一种算法，在观察到每轮的结果后，能够以高概率学习到近似最优的合同，对于行动空间较小的情景，在最优合同学习方面取得了突破性进展，并在相关在线学习环境下用于最大化主体累积效用以提供近似为 O (T^4/5) 的遗憾上界，从而明显改善了之前已知的遗憾上界。

Sep, 2023

与学习代理人的契约

通过学习代理的重复合同，我们提供了一种动态合同的解决方案，这种合同对于知识有限的主体和代理都有利，并且可以应用于不同的时间范围。

Jan, 2024

估计和激励带有隐藏回报的不完美知识代理

研究探讨了自私学习代理和学习主体之间的重复逆向选择博弈，代理通过解决多臂赌博机问题来最大化其预期奖励和激励，主体则在保持一致性估计代理的未知奖励与通过提供自适应激励最大化自身效用之间进行权衡。

Aug, 2023

简单与最优合同

本文探讨通过理论计算机科学的角度研究契约理论，旨在解释和证明简单契约的普遍性，并通过证明线性契约保证是极端情况下的最佳选择，揭示了 NN 这种简单契约的特征。

Aug, 2018

在线合同设计的样本复杂度

研究在线环境下的隐藏操作代理问题，介绍一种在线学习算法，提出一个关于 Stackelberg 遗憾的上界，并使用球形编码的覆盖数来限制契约设计的困难性和契约设计中的离散化误差，并提出解决方案，给出关于合同和行动空间的无限制上界。

Nov, 2022

多个非近视代理人的重复合约：政策遗憾与有限责任

研究重复合同中的非响应均衡、赌博算法和有限责任合同的对策理论。

Feb, 2024

契约强化学习：用无形之手牵引力量

通过合同设计解决在线学习问题中不同利益相关方的经济利益一致性，提出一种理论框架来解决机器学习中的代理问题，并设计了有效的动态规划算法和无悔学习算法以实现最优合同和平衡探索与开发的挑战。

Jul, 2024

有界契约是否可学习和近似最优？

本文研究了基于隐藏行动模型的委托 - 代理问题，在其中委托人通过合同激励代理人参与项目。我们探讨了有界支付的合同是否可学习并近似最优。我们的主要结果是两个学习算法，可以在文献中的两个标准假设下通过多项式数量的查询找到近乎最优的有界合同。我们的多项式查询复杂性上界表明，标准假设足以在一般情况下实现对已知下界的指数改进。与现有算法不同，我们的算法直接学习基础的结果分布。关于有界合同的近似最优性，我们发现它们在乘法或加法逼近方面可能远非最优，但满足混合逼近的概念。

Feb, 2024

奖励驱动的委托代理赌博游戏中的学习

这项研究考虑了一个反复的委托人 - 代理人强盗游戏，委托人仅能通过代理人与环境进行交互。委托人和代理人的目标不一致，选择行动的权限仅留给代理人。然而，委托人可以通过提供激励来影响代理人的决策，这些激励为代理人的回报增加。委托人旨在迭代学习一种激励策略以最大化自己的总效用。该框架扩展了传统的强盗问题，并受到了诸多实际应用的启发，如医疗保健或生态税收，这些领域中传统机制设计理论经常忽视问题的学习方面。我们提出了几乎最优（就 $T$ 而言）的学习算法，用于委托人在多臂和线性背景环境中的遗憾，并通过数值实验验证了我们的理论保证。

Mar, 2024