Jun, 2022

离线多智能体强化学习中的奖励污染攻击

TL;DR本研究探讨了多智能体强化学习中的奖励毒化攻击,并展示了攻击者可以安装目标策略作为马尔科夫完美主导策略均衡,从而使得理性代理人会跟随攻击者所预期的策略走向。该攻击可以更便捷地实施,也适用于多种不同结构的数据集和MARL代理算法,我们同时还研究了数据集结构和攻击代价之间的关系与防御方法。