Mar, 2024

一种新方法:本地TD更新的样本和通信高效的完全分散的多智能体强化学习策略评估

TL;DR在完全分散的多智能体强化学习(MARL)的演员-评论家框架中,MARL策略评估(PE)问题是其中的一个关键组件,其中一组N个智能体通过与邻居通信合作评估给定策略下的全局状态的值函数。本文首次尝试回答一个有趣的开放问题:本地TD更新方法是否能够降低样本复杂性和通信复杂性。我们的理论和实验结果证实了允许执行多个本地TD更新步骤确实是降低MARL-PE的样本复杂性和通信复杂性的有效方法。