估计和激励带有隐藏回报的不完美知识代理

Aug, 2023

估计和激励带有隐藏回报的不完美知识代理

Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden Rewards

Ilgin Dogan, Zuo-Jun Max Shen, Anil Aswani

TL;DR研究探讨了自私学习代理和学习主体之间的重复逆向选择博弈，代理通过解决多臂赌博机问题来最大化其预期奖励和激励，主体则在保持一致性估计代理的未知奖励与通过提供自适应激励最大化自身效用之间进行权衡。

Abstract

In practice, incentive providers (i.e., principals) often cannot observe the reward realizations of incentivized agents, which is in contrast to many principal-agent models that have been previously studied. This information asymmetry challenges the principal to consistently estimate t

incentive providers information asymmetry repeated adverse selection game multi-armed bandit problem data-driven incentive policy

发现论文，激发创造

未观测到代理奖励和完全知识代理的重复委托代理博弈

本研究在多臂赌博 (MAB) 框架下研究重复的主体 - 代理博弈场景，在代理人具有完美知识的情况下，构建了一个估计代理人期望奖励的估计器，并设计了一个低遗憾策略，为主体策略提供了指导，同时在协作交通规划等领域具有一定的应用前景。

Apr, 2023

奖励驱动的委托代理赌博游戏中的学习

这项研究考虑了一个反复的委托人 - 代理人强盗游戏，委托人仅能通过代理人与环境进行交互。委托人和代理人的目标不一致，选择行动的权限仅留给代理人。然而，委托人可以通过提供激励来影响代理人的决策，这些激励为代理人的回报增加。委托人旨在迭代学习一种激励策略以最大化自己的总效用。该框架扩展了传统的强盗问题，并受到了诸多实际应用的启发，如医疗保健或生态税收，这些领域中传统机制设计理论经常忽视问题的学习方面。我们提出了几乎最优（就 $T$ 而言）的学习算法，用于委托人在多臂和线性背景环境中的遗憾，并通过数值实验验证了我们的理论保证。

Mar, 2024

(几乎) 免费的去中心化学习代理的激励探索

本文探讨了在多臂赌博机中利用多个具有长期战略的代理人进行奖励探索，并提出了一种简单但有效的激励策略，结果表明，当涉及足够多的学习代理人时，主体的探索过程几乎是免费的。

Oct, 2021

学习激励信息获取：适当计分规则与委托代理模型相遇

研究了由 Stackelberg 博弈建模的信息获取问题，设计了样本有效的算法来优化评分规则，并保证了代理的行为得到激励，且无关环境状态数的遗憾值上界为 T 的两到三次方根。

Mar, 2023

教导一个学习代理

在非学习模型中，如果代理使用上下文无懊悔学习算法，那么主体可以确保利用率接近于经典的带承诺非学习模型中主体的最优利用率；如果代理使用上下文无交换懊悔学习算法，那么主体无法获得比带承诺非学习模型中最优利用率更高的利用率；使用基于均值的学习算法，主体可以比非学习模型获得显著更好的结果。这些结论对于任何具有完全信息的广义委托代理问题都成立，包括斯塔克尔伯格博弈和合同设计。

Feb, 2024

多臂赌博机与战略代理的鲁棒和激励性算法

我们考虑了一种随机多臂赌博问题的变种，其中臂是可以改善奖励或吸收奖励的战略代理。我们设计了一种机制，以鼓励在平衡状态下实现最高水平的性能，并在非平衡情况下至少获得具有最高均值的诚实代理的收入。我们还确定了一类称为性能激励的 MAB 算法，它们满足一系列性质并表明它们导致的机制在平衡状态下激励最高水平的性能并且是健壮的。

Dec, 2023

贝叶斯探索：在贝叶斯博弈中激励探索

本文研究了在互联网经济中个体决策者在制定战略选择时的信息生产和消费，重点关注探索、开发和利益激励之间的平衡，并提出了一种不使用任何货币转移的建议政策设计方法以协调决策者。结果表明，经过实验模拟，设计的建议政策可以达到恒定的遗憾值，即使在面对随机收益时也可以达到对数遗憾。

Feb, 2016

多智体元梯度强化学习中的自适应激励设计

本文研究了在应用人工智能并应用于共享环境中，设计机构机制以体现社会福利的重要性。我们提出了一种基于元梯度方法的自适应激励设计算法，该算法通过在线交叉验证原则显式考虑其对代理学习的影响，并通过它们对未来社会福利的影响进行优化系统目标

Dec, 2021

契约强化学习：用无形之手牵引力量

通过合同设计解决在线学习问题中不同利益相关方的经济利益一致性，提出一种理论框架来解决机器学习中的代理问题，并设计了有效的动态规划算法和无悔学习算法以实现最优合同和平衡探索与开发的挑战。

Jul, 2024

MERMAIDE: 模型元学习中学习者对齐的学习

研究如何利用 MERMAIDE 这种基于模型的元学习框架进行干预，以在最小化干预数量的同时，快速适应具有不同学习策略和奖励函数的分布外代理，并在带宽特代理的干预中超越两种基线方法。

Apr, 2023