学习激励信息获取：适当计分规则与委托代理模型相遇

Mar, 2023

学习激励信息获取：适当计分规则与委托代理模型相遇

Learning to Incentivize Information Acquisition: Proper Scoring Rules Meet Principal-Agent Model

Siyu Chen, Jibang Wu, Yifan Wu, Zhuoran Yang

TL;DR研究了由 Stackelberg 博弈建模的信息获取问题，设计了样本有效的算法来优化评分规则，并保证了代理的行为得到激励，且无关环境状态数的遗憾值上界为 T 的两到三次方根。

Abstract

We study the incentivized information acquisition problem, where a principal hires an agent to gather information on her behalf. Such a problem is modeled as a stackelberg game between the principal and the agent

incentivized information acquisition stackelberg game scoring rule online setting regret-bound

发现论文，激发创造

奖励驱动的委托代理赌博游戏中的学习

这项研究考虑了一个反复的委托人 - 代理人强盗游戏，委托人仅能通过代理人与环境进行交互。委托人和代理人的目标不一致，选择行动的权限仅留给代理人。然而，委托人可以通过提供激励来影响代理人的决策，这些激励为代理人的回报增加。委托人旨在迭代学习一种激励策略以最大化自己的总效用。该框架扩展了传统的强盗问题，并受到了诸多实际应用的启发，如医疗保健或生态税收，这些领域中传统机制设计理论经常忽视问题的学习方面。我们提出了几乎最优（就 $T$ 而言）的学习算法，用于委托人在多臂和线性背景环境中的遗憾，并通过数值实验验证了我们的理论保证。

Mar, 2024

估计和激励带有隐藏回报的不完美知识代理

研究探讨了自私学习代理和学习主体之间的重复逆向选择博弈，代理通过解决多臂赌博机问题来最大化其预期奖励和激励，主体则在保持一致性估计代理的未知奖励与通过提供自适应激励最大化自身效用之间进行权衡。

Aug, 2023

教导一个学习代理

在非学习模型中，如果代理使用上下文无懊悔学习算法，那么主体可以确保利用率接近于经典的带承诺非学习模型中主体的最优利用率；如果代理使用上下文无交换懊悔学习算法，那么主体无法获得比带承诺非学习模型中最优利用率更高的利用率；使用基于均值的学习算法，主体可以比非学习模型获得显著更好的结果。这些结论对于任何具有完全信息的广义委托代理问题都成立，包括斯塔克尔伯格博弈和合同设计。

Feb, 2024

贝叶斯探索：在贝叶斯博弈中激励探索

本文研究了在互联网经济中个体决策者在制定战略选择时的信息生产和消费，重点关注探索、开发和利益激励之间的平衡，并提出了一种不使用任何货币转移的建议政策设计方法以协调决策者。结果表明，经过实验模拟，设计的建议政策可以达到恒定的遗憾值，即使在面对随机收益时也可以达到对数遗憾。

Feb, 2016

未观测到代理奖励和完全知识代理的重复委托代理博弈

本研究在多臂赌博 (MAB) 框架下研究重复的主体 - 代理博弈场景，在代理人具有完美知识的情况下，构建了一个估计代理人期望奖励的估计器，并设计了一个低遗憾策略，为主体策略提供了指导，同时在协作交通规划等领域具有一定的应用前景。

Apr, 2023

学习如何策略性地披露信息

在本研究中，我们考虑了战略信息披露的不同方面，包括 Stackelberg 博弈、在线信息设计、贝叶斯说服和遗憾界限的分析。

Mar, 2024

状态化的战略回归

对在线评估工具进行策略应对的研究表明，在考虑个体决策者和决策机构间多次周期策略互动的情况下，多轮互动使得决策机构更加有效地激励个体决策者朝期望的方向累积努力，并考虑延长时间框架和考虑决策累积的很多关键因素需要加以研究和解决。

Jun, 2021

在线合同设计的样本复杂度

研究在线环境下的隐藏操作代理问题，介绍一种在线学习算法，提出一个关于 Stackelberg 遗憾的上界，并使用球形编码的覆盖数来限制契约设计的困难性和契约设计中的离散化误差，并提出解决方案，给出关于合同和行动空间的无限制上界。

Nov, 2022

无悔和奖励兼容的在线学习

本研究旨在应用赌注机制的类型建立算法，使学习算法对于观察到的事实的最佳专家后悔，并保证每个专家都以其真实信念的方式报告其每个事件的实现，从而实现在线学习环境中的学习。

Feb, 2020

具有通信的顺序主 - 代理问题：高效计算与学习

本文研究了一个在信息不完备的情况下，委托人和代理人之间的顺序决策问题。

Jun, 2023