Oct, 2023

通过对抗正则化实现稳健的多智能体强化学习:理论基础和稳定算法

TL;DR通过控制一个策略的利普希茨常数,我们展示了在固定条件下的利普希茨和接近最优策略的存在,并基于此提出了新的强健 MARL 框架 ERNIE,通过对状态观测和动作进行对抗性正则化来提高其的利普希茨连续性,并展示了在交通灯控制和粒子环境中的广泛实验。另外,我们扩展了 ERNIE 到基于分布鲁棒优化的 mean-field MARL,该方法在性能上超越了非强健对照组,并具有独立因素。