高风险可靠性的对抗训练

May, 2022

Adversarial Training for High-Stakes Reliability

Daniel M. Ziegler, Seraphina Nix, Lawrence Chan, Tim Bauman, Peter Schmidt-Nielsen...

TL;DR通过对抗训练，可以增加高风险环境下 AI 安全性，本文以安全语言生成任务为测试，使用一系列对抗训练技术来寻找并消除分类器中的错误，提高输出的鲁棒性和可靠性。

Abstract

In the future, powerful AI systems may be deployed in high-stakes settings, where a single failure could be catastrophic. One technique for improving AI safety in high-stakes settings is adversarial training, which uses an adversary to generate examples to train on in order to achieve

ai safety adversarial training classifier text generation reliability

发现论文，激发创造

规模化对抗机器学习

将对抗训练应用于 ImageNet，并提出了如何将对抗训练成功扩展到大型模型和数据集的建议，发现对抗训练能增加对单步攻击方法的鲁棒性，单步攻击方法比多步攻击方法更难以传递，使其成为发动黑盒攻击的最佳选择。研究还揭示了 “标签泄漏” 效应，因为对抗样本构建过程使用真实标签，模型可以学习利用构建过程的规律，使经过对抗训练的模型在对抗示例上表现比正常示例更好。

Nov, 2016

软对抗训练可以保留自然准确度

本文研究用抽象认证来提取子输入以进行软对抗训练，提出了一个培训框架，能在约束条件下保持自然精度而不牺牲强健性，证明了软对抗性训练在对抗攻击防御方面的可行性，并提出了未来工作的范围以进一步改进该框架。

Jun, 2022

破解、模仿、修复：通过生成人类攻击提高鲁棒性

通过有限的人类对抗样本生成更有用的对抗样本，提高模型鲁棒性，对抗训练框架在 ANLI 和仇恨言论检测数据集中展示了其优势，同时训练合成对抗样本提高了模型对未来轮次的鲁棒性。

Oct, 2023

自动对抗性发现用于安全分类器

安全分类器和对抗攻击是在线论坛（如社交媒体和聊天机器人）中减少毒性的关键，然而它们仍然容易受到新兴且数量众多的对抗攻击的影响。本文提出了一种自动对抗发现安全分类器的方法，以在以前未见的伤害维度上寻找新的攻击方法，以揭示分类器的新弱点。我们通过两个主要指标来衡量这个任务的进展（1）对抗成功性：攻击是否欺骗了分类器？（2）维度多样性：攻击是否代表了以前未见的伤害类型？通过对 CivilComments 毒性任务中的现有攻击生成方法进行评估，发现它们存在局限性：词汇扰动攻击无法欺骗分类器，而基于提示的 LLM 攻击具有更高的对抗成功性，但缺乏维度多样性。即使是我们最有效的基于提示的方法，仍然只在攻击的以前未见的伤害维度上成功了 5％的时间。自动发现攻击的新的有害维度至关重要，并且在这个新任务上未来研究有巨大的潜力。

Jun, 2024

A3T：对抗性增强的对抗性训练

本文介绍了一种通过强制表示不变性来提高深度神经网络对抗攻击鲁棒性的方法，并比较其与其他标准对抗训练方法的可行性。

Jan, 2018

神经对话生成的对抗学习

本文提出了一种基于对抗训练的方法用于生成开放领域对话，该系统的对话和人类对话几乎无法区分。作者将问题转化为一个强化学习问题，同时训练一个生成模型和一个鉴别器，用于评估生成的对话是否和人类对话相似，并将鉴别器的输出作为奖励信号，并进一步提出了一种评估模型 - 对抗性评估模型，该模型可避免一系列潜在的问题。实验结果表明，基于对抗训练的系统生成的响应比先前的基线模型更具参考价值。

Jan, 2017

强对抗学习

本文提出了一种名为 “学习强对抗” 的新方法来从有监督数据中学习强健的分类器，其中利用一种新的和简单的对抗性样本寻找方法来改善分类模型的鲁棒性。

Nov, 2015

潜在对抗性训练在未知故障模式中的防御

利用潜在对抗训练（LAT）来防御弱点，减少依赖生成激发输入的方法；通过对图像分类、文本分类和文本生成任务进行实验，LAT 通常在干净数据上提高了鲁棒性和性能，对于开发人员未明确识别的失效模式具备潜在应用前景。

Mar, 2024

通过对抗学习估计和提高公平性

为了保证医疗人工智能系统的公平性和对负责任，我们提出了一种对抗性多任务训练策略来同时减轻和检测基于深度学习的医学图像分析系统中的偏见。实验表明我们提出的方法具有较高的有效性。

Mar, 2021

使用对抗训练改进喷注标记算法的鲁棒性：探索损失表面

深度学习算法在高能物理学领域中越来越受到重视，特别是针对飞行物理观测中标签识别任务的，研究者们正致力于提高模型的稳健性并针对异常数据提出对抗性训练策略以提高模型的鲁棒性。

Mar, 2023