奖励驱动的委托代理赌博游戏中的学习

Mar, 2024

奖励驱动的委托代理赌博游戏中的学习

Incentivized Learning in Principal-Agent Bandit Games

Antoine Scheid, Daniil Tiapkin, Etienne Boursier, Aymeric Capitaine, El Mahdi El Mhamdi...

TL;DR这项研究考虑了一个反复的委托人 - 代理人强盗游戏，委托人仅能通过代理人与环境进行交互。委托人和代理人的目标不一致，选择行动的权限仅留给代理人。然而，委托人可以通过提供激励来影响代理人的决策，这些激励为代理人的回报增加。委托人旨在迭代学习一种激励策略以最大化自己的总效用。该框架扩展了传统的强盗问题，并受到了诸多实际应用的启发，如医疗保健或生态税收，这些领域中传统机制设计理论经常忽视问题的学习方面。我们提出了几乎最优（就 $T$ 而言）的学习算法，用于委托人在多臂和线性背景环境中的遗憾，并通过数值实验验证了我们的理论保证。

Abstract

This work considers a repeated principal-agent bandit game, where the principal can only interact with her environment through the agent. The principal and the agent have misaligned objectives and the choice of action is only left to the agent. However, the principal can influence the

repeated principal-agent bandit game incentive policy mechanism design theories learning algorithms regret

发现论文，激发创造

估计和激励带有隐藏回报的不完美知识代理

研究探讨了自私学习代理和学习主体之间的重复逆向选择博弈，代理通过解决多臂赌博机问题来最大化其预期奖励和激励，主体则在保持一致性估计代理的未知奖励与通过提供自适应激励最大化自身效用之间进行权衡。

Aug, 2023

未观测到代理奖励和完全知识代理的重复委托代理博弈

本研究在多臂赌博 (MAB) 框架下研究重复的主体 - 代理博弈场景，在代理人具有完美知识的情况下，构建了一个估计代理人期望奖励的估计器，并设计了一个低遗憾策略，为主体策略提供了指导，同时在协作交通规划等领域具有一定的应用前景。

Apr, 2023

(几乎) 免费的去中心化学习代理的激励探索

本文探讨了在多臂赌博机中利用多个具有长期战略的代理人进行奖励探索，并提出了一种简单但有效的激励策略，结果表明，当涉及足够多的学习代理人时，主体的探索过程几乎是免费的。

Oct, 2021

贝叶斯激励兼容赌徒探索

研究说明在互联网经济和医疗决策等环境中，每个决策者对信息进行开采利用，并产生可能有助于未来决策的信息，社会规划者通过信息披露来鼓励代理商在探索和开采之间取得平衡，从而最大化社会福利，文中提供了一个多臂赌博问题的激励兼容算法，其遗憾在所有多臂赌博算法中（不管是否具有激励兼容性）是渐进最优的。

Feb, 2015

学习激励信息获取：适当计分规则与委托代理模型相遇

研究了由 Stackelberg 博弈建模的信息获取问题，设计了样本有效的算法来优化评分规则，并保证了代理的行为得到激励，且无关环境状态数的遗憾值上界为 T 的两到三次方根。

Mar, 2023

教导一个学习代理

在非学习模型中，如果代理使用上下文无懊悔学习算法，那么主体可以确保利用率接近于经典的带承诺非学习模型中主体的最优利用率；如果代理使用上下文无交换懊悔学习算法，那么主体无法获得比带承诺非学习模型中最优利用率更高的利用率；使用基于均值的学习算法，主体可以比非学习模型获得显著更好的结果。这些结论对于任何具有完全信息的广义委托代理问题都成立，包括斯塔克尔伯格博弈和合同设计。

Feb, 2024

贝叶斯探索：在贝叶斯博弈中激励探索

本文研究了在互联网经济中个体决策者在制定战略选择时的信息生产和消费，重点关注探索、开发和利益激励之间的平衡，并提出了一种不使用任何货币转移的建议政策设计方法以协调决策者。结果表明，经过实验模拟，设计的建议政策可以达到恒定的遗憾值，即使在面对随机收益时也可以达到对数遗憾。

Feb, 2016

教育中的强化学习：多臂赌博机方法

本研究通过上下文化和模拟累计奖励来解决教育上的干预建议问题，采用强化学习的代理模型结合混合学习方法，景点在线平台的自动化功能

Nov, 2022

一种用于选择强化学习智能体的赌博机框架

本文提出一种基于多臂赌博机框架的深度强化学习方法，通过选择最适合特定应用的学习模型和增强学习代理，解决了实际应用中环境不明确和奖励不稳定等问题。实验结果表明该方法在标准环境下能够选出最优代理，并且相较于其他策略在同样步数内获得更高的累计奖励值。

Feb, 2019

与学习代理人的契约

通过学习代理的重复合同，我们提供了一种动态合同的解决方案，这种合同对于知识有限的主体和代理都有利，并且可以应用于不同的时间范围。

Jan, 2024