AAAIDec, 2022

合作多智能体强化学习的认证策略平滑化

TL;DR提出了基于虚警率控制和基于树搜索的算法用于分析多智能体的鲁棒性。实验证明该方法产生的可靠性界限比现有模型更紧密。