顺序信息设计：在暗中学习说服

Sep, 2022

Sequential Information Design: Learning to Persuade in the Dark

Martino Bernasconi, Matteo Castiglioni, Alberto Marchesi, Nicola Gatti, Francesco Trovo

TL;DR研究了在信息设计问题中，如何让一个自利的决策人在面对连续决策时遵循某些规则，并提出了相应的学习算法，该算法可以保证提示者和接收者在不同条件下的回报。

Abstract

We study a repeated information design problem faced by an informed sender who tries to influence the behavior of a self-interested receiver. We consider settings where the receiver faces a sequential decision making

information design sequential decision making learning algorithms persuasiveness requirements regret analysis

发现论文，激发创造

顺序信息设计：马尔可夫说服过程及其有效的强化学习

本文提出了一种新的序列信息设计模型 —— 马尔科夫说服过程（MPP），并在在线强化学习环境下设计了一种有效的无后悔策略学习算法（OP4），该算法可高效地确定具有有限或无限状态和结果的优化策略，提高发件人的效用。

Feb, 2022

学习如何策略性地披露信息

在本研究中，我们考虑了战略信息披露的不同方面，包括 Stackelberg 博弈、在线信息设计、贝叶斯说服和遗憾界限的分析。

Mar, 2024

马尔可夫说服流程：从零开始学习说服

Bayesian persuasion and learning algorithms are used to address Markov persuasion processes where the sender has no prior knowledge, ensuring sublinear growth of regret in the number of episodes and matching the guarantees of the algorithm.

Feb, 2024

贝叶斯劝服下的动态定价与学习

该研究探讨在线广告和动态定价设计的问题，使用贝叶斯说服模型来研究信号对买家定价和购买决策的影响，提出了一种具有低后悔率的在线算法。

Apr, 2023

通过模拟进行算法说服：生成式人工智能时代的信息设计

通过使用 oracle 查询来学习有关接收者的信仰，我们研究了信息设计与贝叶斯说服问题，设计了多项式时间查询算法来优化发送者的预期效用。

Nov, 2023

教导一个学习代理

在非学习模型中，如果代理使用上下文无懊悔学习算法，那么主体可以确保利用率接近于经典的带承诺非学习模型中主体的最优利用率；如果代理使用上下文无交换懊悔学习算法，那么主体无法获得比带承诺非学习模型中最优利用率更高的利用率；使用基于均值的学习算法，主体可以比非学习模型获得显著更好的结果。这些结论对于任何具有完全信息的广义委托代理问题都成立，包括斯塔克尔伯格博弈和合同设计。

Feb, 2024

序贯决策和广义博弈的赌徒线性优化

报告描述了如何设计面向 TFSDM 的探索 - 利用算法以解决困难的在线决策问题

Mar, 2021

具有延迟反馈的对抗性马尔可夫决策过程学习

本文研究了具有未知转换和拥有无限制延迟反馈的分集式马尔可夫决策过程的在线学习，表现出基于策略优化的新算法，在完全信息反馈下实现了接近最优的高概率后悔情况，同时也是第一个考虑具有延迟反馈的 MDP 的后悔最小化设置。

Dec, 2020

贝叶斯设计原则在频率学派的顺序学习中的应用

我们提出了一种通用理论来优化顺序学习问题的频率后悔，从统一的贝叶斯原理中可以得出高效的 Bandit 和强化学习算法。我们提出了一种新的优化方法，在每一轮生成 “算法信念”，并使用贝叶斯后验进行决策。这种优化目标被称为 “算法信息比”，代表了一种有效地表征任何算法的频率后悔的内在复杂度度量。在我们的知识范围内，这是第一种系统的方法，使贝叶斯类型的算法在先验自由和敌对环境中以通用和最优的方式适用。此外，这些算法简单且实现通常高效。作为一个重要的应用，我们提出了一种新颖的多臂赌博机算法，在随机、敌对和非平稳环境中实现了 “兼顾所有优点” 的实证性性能。我们还说明了如何在线性赌博机、赌博机凸优化和强化学习中应用这些原理。

Oct, 2023

在马尔可夫决策过程中学习协作

针对一个由两个代理解决协作任务的两代理 MDP 框架，设计一种在线学习算法，使得当第二代理以未知的方式适应其策略时，第一代理能够轻松成功协作，保证了算法的收敛速度，并证明了这种方式的必要性和适用性。

Jan, 2019