Apr, 2023

具有理论保证的多智能体策略互惠

TL;DR本文提出了一种新的多智能体策略互惠(PR)框架,其中每个智能体可以在不匹配的状态下充分利用跨智能体策略,并定义了一个不匹配状态的邻接空间并设计一个即插即用模块的值迭代,以提高PR的可扩展性和稳定性,实验证明PR在离散和连续环境中优于现有的各种RL和转移RL方法。