ICLRJan, 2022

在合作与拜占庭式分散团队中使用互信息进行迭代推理

TL;DR本文提出 InfoPG 算法,以最大化相互信息来优化多智能体协作决策,有效地在多个复杂任务中提高了学习效率和总奖励。