Jun, 2020

多智能体强化学习的最大互信息框架

TL;DR本文提出了一个最大互信息(MMI)框架,用于多智能体强化学习,通过在行动之间的互信息上采取正则化累积回报,使多个智能体学习协调行为。通过引入潜在变量来诱导非零互信息,并应用变分界,我们推导了所考虑的 MMI - 正则化目标函数的可处理下界。将策略迭代应用于最大化所得到的下界,我们提出了一个名为变分最大互信息多智能体演员 - 评论家(VM3-AC)的实用算法,它遵循中央化学习与分散执行(CTDE)的方法。我们在几个需要协调的游戏中评估了 VM3-AC,并且数值结果表明 VM3-AC 在需要协调的多智能体任务中优于 MADDPG 和其他 MARL 算法。