Dec, 2023

TAPE: 基于智能体拓扑的合作多智能体策略梯度

TL;DR提出了一个代理拓扑框架,通过在策略梯度中考虑其他代理来实现协作与解决分布一致性不匹配问题的折中方案。该代理拓扑可以使代理使用联盟效用作为学习目标,避免了全局效用或局部效用带来的问题,并通过实验结果表明能够改善 TAPE 的性能。