Oct, 2022

ELIGN:基于多智能体内在奖励的期望对齐

TL;DR该研究探讨在分散型训练或稀疏奖励的情况下,提出了一种自我监督的本质奖励 ELIGN - 期望对齐 - 以及其在多智能体协调问题上的有效性。通过期望对齐代理能够学习到协作行为并且可以进行零次协调,这比基于好奇心的探索方法更加可行。