Feb, 2021

通过信任区域分解应对MARL中的非平稳性

TL;DR本文提出一个名为 TRD-Net 的模型和基于其的 MAMT 算法,通过控制联合策略的变化,减轻非平稳性问题,此方法稳定性及性能比基线模型更好。