Learn2Weight: 相似领域对抗攻击下的参数调适

COLINGMay, 2022

Learn2Weight: 相似领域对抗攻击下的参数调适

Learn2Weight: Parameter Adaptation against Similar-domain Adversarial Attacks

Siddhartha Datta

TL;DR提出一种新的黑盒 NLP 对抗攻击，攻击者可以选择类似的领域并将对抗性样本转移到目标领域，本文提出学习调整目标模型权重的防御策略 ——Learn2Weight，证明其对 Amazon 多领域情感分类数据集等攻击效果优于传统防御方法。

Abstract

Recent work in black-box adversarial attacks for nlp systems has attracted much attention. Prior black-box attacks assume that attackers can observe output labels from target models based on selected inputs. In t

black-box adversarial attacks nlp systems adversarial transferability domain adaptation learn2weight

发现论文，激发创造

自适应加权对抗领域适应

提出了一种自适应的、基于条件分布的加权对抗领域适应方法，将三元损失与对抗损失结合应用于度量学习，以保证类别级别的对齐；实验结果表明，该方法在标准领域适应数据集上优于现有方法。

May, 2020

利用相似目标的增强对抗攻击

在这篇论文中，我们提出了一种名为 Similar Target（ST）的类似目标攻击方法，通过促进每个模型梯度的余弦相似性，我们的方法规范化了优化方向，从而同时攻击所有替代模型，验证了我们的方法在提高对抗迁移性方面的有效性。在 ImageNet 上的实验结果证实了我们的方法在提高对抗迁移性方面的有效性，优于 18 个判别分类器和对抗训练模型的最先进攻击方法。

Aug, 2023

利用重要性权重对抗网络进行部分领域适应

本文提出了一种基于重要性加权的对抗网络方法，用于无监督域自适应，特别适用于目标域比源域类别少的部分域适应。该方法可以克服现有域适应方法中假定标签空间相同的局限，并减少域之间共享类的变化。

Mar, 2018

深度域自适应：超越权重共享

在领域自适应中，为了解决来自不同领域的相关但不同的数据对分类器性能的影响，该研究使用了两个流的架构，其中一个处理源领域的数据，另一个处理目标领域的数据。在有监督和无监督的情况下，该方法均优于现有技术，并在多个物体识别和检测任务中实现了更高的准确性。

Mar, 2016

神经网络的领域对抗性训练

本文提出了一种新的领域适应的表示学习方法，使用神经网络架构从源域的有标签数据和目标域的无标签数据中推断出训练的特征，该方法增加了标准层和一个新的反向梯度层，可以在文本情感分析、图像分类以及人员重新识别等任务中有效实现领域适应。

May, 2015

对抗扰动的跨域可转移性

本研究首次证明存在领域不变的对抗性攻击，提出了一个用于在不同领域中高度转移的攻击框架，核心是一个可生成网络，具有相对论监督信号，能够实现领域不变的扰动。该方法在白盒和黑盒情况下均创新了欺骗率的最佳性能，并且尽管它是一个无实例特定扰动的函数，但优于传统上更强的实例特定攻击方法。

May, 2019

对抗学习损失用于领域自适应

该论文提出了一种名为 ALDA 的新颖领域自适应方法，利用伪标签方法和混淆矩阵相结合，实现特征分布的对齐和目标特征的强分类，并将学习到的混淆矩阵构建为新的损失函数。在四个标准领域适应数据集上较其他已知方法表现更优。

Jan, 2020

生成自然语言对抗样本

通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本，不仅能提高情感分析和文本蕴涵模型的错误率，还能在 20 名人类注释者中得到 92.3% 的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试，但未能产生改进，说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。

Apr, 2018

基于感知度量的任务通用性对抗攻击

提出一种基于永续度量的方法，通过创造高度扭曲网络特征空间的攻击来达到高度通用的敌对样本，旨在打破相对有限的目前攻击的限制，并可将其通过多个网络扩展到多个任务。

Nov, 2018

领域对抗神经网络

本研究提出了一种针对领域自适应问题的新型表示学习算法，其中训练和测试数据来自类似但不同的分布，实验结果表明，我们的神经网络算法对领域适应具有更好的性能表现，而不管是标准神经网络还是支持向量机，即使是使用 Chen 等人提出的最先进的边缘化堆栈去噪自编码器的输入特征提取。

Dec, 2014