Apr, 2024

合作多智体强化学习中的随机探索

TL;DR我们提出了第一个关于合作多智能体强化学习(MARL)中可证明效率的随机探索的研究,提出了一种统一的随机探索算法框架,以及两种基于 Thompson Sampling(TS)的算法。我们在多个并行强化学习环境中评估了我们的方法,包括深度探索问题,视频游戏和能源系统中的一个实际问题。实验证明,我们的框架即使在过渡模型误指定的条件下,也能达到更好的性能,此外,我们还建立了我们统一框架与联邦学习的实际应用之间的联系。