Sep, 2023

相对熵正则化的有效多智能体深度强化学习控制

TL;DR本文提出了一种新颖的多智能体强化学习方法,即多智能体连续动态策略梯度(MACDPP),用于解决多智能体控制的各种场景中的能力有限性和样本效率的问题。通过在中央化训练与分散执行的框架中引入相对熵正则化以及参与者 - 判别者结构,缓解了多个智能体策略更新的不一致性。通过多智能体协作和竞争任务以及传统控制任务,包括 OpenAI 基准和机械臂操纵,评估了 MACDPP 在学习能力和样本效率方面相对于相关的多智能体和广泛实施的信号 - 智能体基准的显著优越性,从而扩展了多智能体强化学习在有效学习具有挑战性的控制场景中的潜力。