Feb, 2022

一种基于双层循环的去中心化通信框架,用于多智能体强化学习

TL;DR该研究提出了一种模型,可以实现分散的多个代理程序以公平适应的方式共享其对环境的感知。我们提出了一个双层递归通信框架,用于多代理系统,其中第一次循环出现在通信序列中并用于在代理之间传输通信数据,而第二次循环基于时间序列并结合每个代理的历史观察结果。该方法在部分可观测环境和完全可观测环境中提供了充分的讨论,多次实验结果表明该方法优于现有的分散通信框架和相应的集中训练方法。