Aug, 2023

${ m E}(3)$-Equivariant Actor-Critic 合作多智能体强化学习方法

TL;DR本文重点研究了自然界中对称模式的识别和分析,在物理学中导致了引力定律的制定和化学结构研究的进展。我们着眼于利用某些协同多智能体强化学习问题中固有的欧几里得对称性,该问题在许多应用中普遍存在。我们首先形式化地表征了一类具有对称最优值和策略存在性的马尔科夫博弈的子类。在这些属性的基础上,我们设计了具有对称约束的神经网络架构,作为多智能体演员-评论家方法的归纳偏见。这种归纳偏见在各种协同多智能体强化学习基准测试中表现出优越的性能,以及在具有重复对称模式的未见场景中进行的零样本学习和迁移学习等令人印象深刻的泛化能力。代码可在此 https URL 获取。