Jun, 2023

公平最优多智能体赌博机

TL;DR研究多智能体多臂赌博学习问题,以无通信和有限奖励为前提,提出了一种分布式拍卖算法并进行样本最优匹配学习和新的拍卖决策策略,通过新颖的基于次序统计量的后悔分析带来了全新的性能,实验模拟表明性能依赖于对数时间。