ACLJun, 2024

自动对抗性发现用于安全分类器

TL;DR安全分类器和对抗攻击是在线论坛(如社交媒体和聊天机器人)中减少毒性的关键,然而它们仍然容易受到新兴且数量众多的对抗攻击的影响。本文提出了一种自动对抗发现安全分类器的方法,以在以前未见的伤害维度上寻找新的攻击方法,以揭示分类器的新弱点。我们通过两个主要指标来衡量这个任务的进展(1)对抗成功性:攻击是否欺骗了分类器?(2)维度多样性:攻击是否代表了以前未见的伤害类型?通过对 CivilComments 毒性任务中的现有攻击生成方法进行评估,发现它们存在局限性:词汇扰动攻击无法欺骗分类器,而基于提示的 LLM 攻击具有更高的对抗成功性,但缺乏维度多样性。即使是我们最有效的基于提示的方法,仍然只在攻击的以前未见的伤害维度上成功了 5%的时间。自动发现攻击的新的有害维度至关重要,并且在这个新任务上未来研究有巨大的潜力。