高风险可靠性的对抗训练
将对抗训练应用于 ImageNet,并提出了如何将对抗训练成功扩展到大型模型和数据集的建议,发现对抗训练能增加对单步攻击方法的鲁棒性,单步攻击方法比多步攻击方法更难以传递,使其成为发动黑盒攻击的最佳选择。研究还揭示了 “标签泄漏” 效应,因为对抗样本构建过程使用真实标签,模型可以学习利用构建过程的规律,使经过对抗训练的模型在对抗示例上表现比正常示例更好。
Nov, 2016
本文研究用抽象认证来提取子输入以进行软对抗训练,提出了一个培训框架,能在约束条件下保持自然精度而不牺牲强健性,证明了软对抗性训练在对抗攻击防御方面的可行性,并提出了未来工作的范围以进一步改进该框架。
Jun, 2022
通过有限的人类对抗样本生成更有用的对抗样本,提高模型鲁棒性,对抗训练框架在 ANLI 和仇恨言论检测数据集中展示了其优势,同时训练合成对抗样本提高了模型对未来轮次的鲁棒性。
Oct, 2023
安全分类器和对抗攻击是在线论坛(如社交媒体和聊天机器人)中减少毒性的关键,然而它们仍然容易受到新兴且数量众多的对抗攻击的影响。本文提出了一种自动对抗发现安全分类器的方法,以在以前未见的伤害维度上寻找新的攻击方法,以揭示分类器的新弱点。我们通过两个主要指标来衡量这个任务的进展(1)对抗成功性:攻击是否欺骗了分类器?(2)维度多样性:攻击是否代表了以前未见的伤害类型?通过对 CivilComments 毒性任务中的现有攻击生成方法进行评估,发现它们存在局限性:词汇扰动攻击无法欺骗分类器,而基于提示的 LLM 攻击具有更高的对抗成功性,但缺乏维度多样性。即使是我们最有效的基于提示的方法,仍然只在攻击的以前未见的伤害维度上成功了 5%的时间。自动发现攻击的新的有害维度至关重要,并且在这个新任务上未来研究有巨大的潜力。
Jun, 2024
本文提出了一种基于对抗训练的方法用于生成开放领域对话,该系统的对话和人类对话几乎无法区分。作者将问题转化为一个强化学习问题,同时训练一个生成模型和一个鉴别器,用于评估生成的对话是否和人类对话相似,并将鉴别器的输出作为奖励信号,并进一步提出了一种评估模型 - 对抗性评估模型,该模型可避免一系列潜在的问题。实验结果表明,基于对抗训练的系统生成的响应比先前的基线模型更具参考价值。
Jan, 2017
利用潜在对抗训练(LAT)来防御弱点,减少依赖生成激发输入的方法;通过对图像分类、文本分类和文本生成任务进行实验,LAT 通常在干净数据上提高了鲁棒性和性能,对于开发人员未明确识别的失效模式具备潜在应用前景。
Mar, 2024
为了保证医疗人工智能系统的公平性和对负责任,我们提出了一种对抗性多任务训练策略来同时减轻和检测基于深度学习的医学图像分析系统中的偏见。实验表明我们提出的方法具有较高的有效性。
Mar, 2021
深度学习算法在高能物理学领域中越来越受到重视,特别是针对飞行物理观测中标签识别任务的,研究者们正致力于提高模型的稳健性并针对异常数据提出对抗性训练策略以提高模型的鲁棒性。
Mar, 2023