Nov, 2023

无噪音奖励和无通信的最佳合作多人学习赌博机

TL;DR合作多人奖励学习中,通信受限的策略选择问题;通过使用上界和下界置信度算法,解决信息不对称导致的动作选择问题,并达到对数和平方根极限遗憾值。