AAAIDec, 2023

稀疏超图上多智能体汤普森采样的有限时间频率后悔界

TL;DR研究了多智能体多抽臂赌博机问题,针对联动臂的回报进行了探索,提出了一种高效的变体算法 epsilon-MATS,并证明了其在频率意义下的遗憾上界是次线性的,同时通过实验验证了其在相同情景下相比现有算法的卓越性能和改进的计算效率。