May, 2023

竞争自学时学习新兴行为的Stackelberg博弈

TL;DR使用 Stackelberg Multi-Agent Deep Deterministic Policy Gradient (ST-MADDPG) 的算法,优化自我进化过程中的智能体沟通模式,提高多智能体学习的有效性和鲁棒性。