顺序信息设计:在暗中学习说服
本文提出了一种新的序列信息设计模型 —— 马尔科夫说服过程(MPP),并在在线强化学习环境下设计了一种有效的无后悔策略学习算法(OP4),该算法可高效地确定具有有限或无限状态和结果的优化策略,提高发件人的效用。
Feb, 2022
Bayesian persuasion and learning algorithms are used to address Markov persuasion processes where the sender has no prior knowledge, ensuring sublinear growth of regret in the number of episodes and matching the guarantees of the algorithm.
Feb, 2024
通过使用 oracle 查询来学习有关接收者的信仰,我们研究了信息设计与贝叶斯说服问题,设计了多项式时间查询算法来优化发送者的预期效用。
Nov, 2023
在非学习模型中,如果代理使用上下文无懊悔学习算法,那么主体可以确保利用率接近于经典的带承诺非学习模型中主体的最优利用率;如果代理使用上下文无交换懊悔学习算法,那么主体无法获得比带承诺非学习模型中最优利用率更高的利用率;使用基于均值的学习算法,主体可以比非学习模型获得显著更好的结果。这些结论对于任何具有完全信息的广义委托代理问题都成立,包括斯塔克尔伯格博弈和合同设计。
Feb, 2024
本文研究了具有未知转换和拥有无限制延迟反馈的分集式马尔可夫决策过程的在线学习,表现出基于策略优化的新算法,在完全信息反馈下实现了接近最优的高概率后悔情况,同时也是第一个考虑具有延迟反馈的 MDP 的后悔最小化设置。
Dec, 2020
我们提出了一种通用理论来优化顺序学习问题的频率后悔,从统一的贝叶斯原理中可以得出高效的 Bandit 和强化学习算法。我们提出了一种新的优化方法,在每一轮生成 “算法信念”,并使用贝叶斯后验进行决策。这种优化目标被称为 “算法信息比”,代表了一种有效地表征任何算法的频率后悔的内在复杂度度量。在我们的知识范围内,这是第一种系统的方法,使贝叶斯类型的算法在先验自由和敌对环境中以通用和最优的方式适用。此外,这些算法简单且实现通常高效。作为一个重要的应用,我们提出了一种新颖的多臂赌博机算法,在随机、敌对和非平稳环境中实现了 “兼顾所有优点” 的实证性性能。我们还说明了如何在线性赌博机、赌博机凸优化和强化学习中应用这些原理。
Oct, 2023
针对一个由两个代理解决协作任务的两代理 MDP 框架,设计一种在线学习算法,使得当第二代理以未知的方式适应其策略时,第一代理能够轻松成功协作,保证了算法的收敛速度,并证明了这种方式的必要性和适用性。
Jan, 2019