Feb, 2022

同质化马尔可夫博弈的高效通信演员-评论方法

TL;DR该论文研究了协作多智能体强化学习中的集中式训练和策略共享,提出了一种基于一致性的去中心化演员-评论家方法,以减少通信成本并保证收敛,从而有效地降低了训练时的通信成本。