Dec, 2023

MACCA: 离线多智能体强化学习与因果信用分配

TL;DR在离线多智能体强化学习中,通过将生成过程建模为动态贝叶斯网络,我们的方法 MACCA 可以准确、可解释地分配每个个体的贡献,并且在离线数据集的设置下,已证明了其建模的正确性。实验证明,MACCA 在离散和连续动作环境中优于最先进方法并提高了其性能。