Oct, 2021

利用协调策略优化学习模拟自驱颗粒系统

TL;DR本文中,我们通过引入社会心理学原则,提出了一种新的MARL方法Coordinated Policy Optimization(CoPO),用于协调自驱粒子系统中多个代理的行为,并最大化个体目标,实验结果表明,与MARL基线相比,CoPO可以在各种度量方面实现优越的性能。