Jun, 2023

面向上下文的贝叶斯网络演员-评论者方法用于协作多智体强化学习

TL;DR本研究提出了一种基于贝叶斯网络的多代理协作强化学习算法,建立了协作性马尔可夫博弈中多代理行动选择的依赖关系并证明了其全局收敛性和优越性,通过可微的有向无环图,实现了动态学习具有背景感知能力的贝叶斯网络策略,并在多个MARL基准测试中获得了改进。