DSRM：通过分布飘移风险最小化提升文本对抗训练

ACLJun, 2023

DSRM：通过分布飘移风险最小化提升文本对抗训练

DSRM: Boost Textual Adversarial Training with Distribution Shift Risk Minimization

Songyang Gao, Shihan Dou, Yan Liu, Xiao Wang, Qi Zhang...

TL;DR介绍了一种新的经过有效处理的针对深度语言模型对抗训练的方法 —— 分布偏移风险最小化（DSRM），不需要对抗样本进行训练，可以比当前最佳对抗训练方法降低 70% 的时间消耗，并且显著提高 BERT 模型对文本对抗攻击的鲁棒性，实现了各种基准测试的最高鲁棒准确性。

Abstract

adversarial training is one of the best-performing methods in improving the robustness of deep language models. However, robust models com

adversarial training deep language models distributed shift risk minimization robust models textual adversarial attacks

发现论文，激发创造

对抗分布式训练用于强健深度学习

本文提出了一种新的模型训练框架 - 对抗分布式训练（ADT），通过最小值最大化优化问题，训练模型来学习处理各种威胁。ADT 的有效性也在几个基准测试中得到了验证。

Feb, 2020

离散对抗训练实现模型的鲁棒性

本文提出离散对抗攻击的在线增强方法，使用基于最佳优先搜索和随机抽样的攻击策略来生成对抗性样本，结果表明使用随机抽样方法能够显著提高鲁棒性，而且比之前使用的离线增强方法速度提高了约 10 倍。

Apr, 2021

分布对抗损失

对抗攻击的一个主要挑战是可能的攻击方法的庞大空间，本研究引入了一种称为分布对抗损失的新概念，旨在统一随机平滑和输入离散化两种有效削弱攻击者影响的方法。我们证明我们的概念具有 VC 维度和每个输入关联的允许对抗分布集合的大小方面的泛化保证，并通过实验证实该过程，改进了模型对各种对抗攻击的鲁棒性。

Jun, 2024

针对领域特定风险的最小化以实现超出分布的泛化

本文提出了基于领域特定风险最小化（DRM）的方法，旨在通过利用源域信息和适应性差的估计和最小化来弥合领域间差异以实现领域通用性，并在不同分布漂移设置下显着优于竞争基准。

Aug, 2022

用最小扰动生成文本对抗样本

本文提出了一种新的对抗攻击策略，旨在找到与原始文本相似度极高的对抗文本，同时引入最小扰动；实验结果表明，与现有攻击方法相比，我们的方法在四个基准数据集上的成功率更高，扰动率更低。

Nov, 2022

关于不变性学习和对抗训练与超出分布泛化的联系

本文探究一种基于对抗训练的深度学习模型方法，称为 Domainwise Adversarial Training (DAT)，来解决深度学习模型在广义分布中失败的问题，该方法借鉴了 Invariant Risk Minimization (IRM) 和 Adversarial Training (AT) 方法，并通过实验证明，我们提出的 DAT 方法在解决不同广义分布转移方案上表现均可。

Dec, 2022

面向数据中心强健学习的抵抗基于迁移的对抗性攻击的深度学习模型

该研究提出了一种名为数据中心稳健学习（DRL）的新的防御范例，通过在训练之前进行一次性的对抗性增强来提高对迁移攻击的稳健性，并且在黑盒稳健性上超过了多种常用的对抗训练技术。此外，DRL 还具有模型的泛化能力和稳健公平性。

Oct, 2023

面向强鲁棒性神经机器翻译的对抗子词规范化

该研究通过提出对抗子单词规范化技术（ADVSR）探讨了在训练过程中是否可以使用梯度信号作为多样化子单词分割的替代标准，实验证明该技术可以有效地减少分割错误对神经机器翻译模型的影响，从而提高模型在低资源和外部数据集上的性能。

Apr, 2020

为预训练语言模型重新思考文本对抗防御

针对预训练语言模型容易受到对抗攻击的问题，提出了一种基于异常检测和随机化的通用防御框架。该框架针对性不强，能够有效地弥补其他防御方法的不足，同时本研究也揭示了文本对抗攻击的本质，并提出了应该加强对谨慎攻击方法的研究。

Jul, 2022

分布鲁棒监督学习是否能提供稳健的分类器？

本文介绍了分布鲁棒监督学习（DRSL）的概念和其与 f - 散度的关系，DRSL 可以最小化对抗重加权训练损失来明确考虑最坏情况的分布移位，并在分类情景下进行了分析。研究发现 DRSL 恰好可以匹配给定的训练分布，提出了简单的 DRSL 以克服这种悲观主义，并且经验性地证明了其有效性。

Nov, 2016