Dec, 2023

博弈中协作学习的最优遗憾界

TL;DR我们研究了在一个通用的协作多智能体多臂老虎机模型中的遗憾最小化问题,在该模型中,每个智能体面临一个有限的臂集,并可以通过一个中央控制器与其他智能体进行通信。该模型中每个智能体的最优臂是具有最大期望混合奖励的臂,其中每个臂的混合奖励是其在所有智能体之间的奖励的加权平均,这使得智能体之间的通信至关重要。尽管在这个协作模型下已知最优臂识别的近似复杂度,但最优遗憾问题仍然是开放的。在这项工作中,我们解决了这个问题,并提出了第一个在这个协作老虎机模型下具有最优遗憾界限的算法。此外,我们还展示了只需要一个小的常数期望通信轮数。