对抗式自注意力用于语言理解

AAAIJun, 2022

Adversarial Self-Attention for Language Understanding

Hongqiu Wu, Ruixue Ding, Hai Zhao, Pengjun Xie, Fei Huang...

TL;DR本研究通过提出对 Transformer 模型的自注意力机制进行改进，提出了 Adversarial Self-Attention（ASA）机制，旨在抑制模型对部分特征的依赖以及探索更广泛的语义，实现更好的泛化性能和鲁棒性。实验结果表明，在预训练和微调阶段中，使用 ASA 的模型相较于普通训练在长远步骤上获得了显著的性能提升，这些模型也能够在泛化性能和鲁棒性方面胜过普通模型。

Abstract

Deep neural models (e.g. transformer) naturally learn spurious features, which create a ``shortcut'' between the labels and inputs, thus impairing the generalization and →

adversarial self-attention transformer pre-trained language models generalization robustness

发现论文，激发创造

用于对抗性检测的输入特定注意力子网络

本文提出了一种利用自注意力头来进行对抗检测的方法，在 10 个 NLU 数据集上通过构建输入特定的自注意力子网络并提取三个特征来鉴别真实和对抗性样本，相对于当前最先进的技术，对 BERT 编码器的对抗检测准确度明显提高（超过 7.5％），并证明了该方法适用于大型模型以及对抗样本数量较少的情况。

Mar, 2022

使用 Transformer 引导自监督学习的注意力机制

该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术，该方法利用辅助损失函数引导注意力头符合自注意力特征，并可以适用于不同的预训练目标，实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好，在低资源环境中取得了业界领先结果。

Oct, 2020

自注意力归因：解释 Transformer 内部的信息交互

本文提出了一种自我注意力归因方法，通过对 BERT 等模型进行广泛的研究，发现这种方法能够用于识别重要的注意力头，构建注意力树，揭示变压器内的分层交互，以及可用作敌对模式实现非定向攻击。

Apr, 2020

注意力遇到扰动：通过对抗训练实现鲁棒性和可解释性的注意力机制

本文提出对自然语言处理任务进行通用训练的技术，包括关注力对抗训练（Attention AT）和更易于解释的关注力对抗训练（Attention iAT）。该方法通过引入对抗扰动，增强了句子注意力的差异，提高了模型的预测性能和可解释性，并且尤其适用于关注力机制。实验表明，Attention iAT 在十项任务中表现最佳，并且其结果的注意力与基于梯度的单词重要性的相关性更强。此外，该方法不太依赖于对抗扰动的大小。

Sep, 2020

利用自注意力 U-Net 增强技术刻画语音对抗样本

本文提出了一种基于 U-Net 的注意力模型 ——U-Net$_{At}$，用于增强深度神经网络（DNN）语音识别系统中的对抗性信号，并通过可解释的语音识别度量评估模型性能，并探讨在对抗训练下的模型性能，在对抗性语音示例的语音增强任务中，我们的实验表明，提出的 U-Net$_{At}$ 可将语音质量感知评估（PESQ）从 1.13 提高到 2.78，语音传输指数（STI）从 0.65 提高到 0.75，短期客观清晰度（STOI）从 0.83 提高到 0.96，我们还在带有对抗性音频攻击的自动语音识别（ASR）任务上进行了实验，发现（i）注意力网络学习的时间特征能够提高 DNN 基于 ASR 模型的鲁棒性；（ii）通过应用带有加性对抗性数据增强的对抗性训练，可以增强 DNN 基于 ASR 模型的泛化能力，单词错误率（WERs）上的 ASR 指标显示，在基于梯度的扰动下有绝对 2.22％的减少，在经过进化优化的扰动下有绝对 2.03％的减少，这表明我们的增强模型与对抗性训练可以进一步确保弹性 ASR 系统的安全性。

Mar, 2020

Transformer 模型的轻松注意力

本文通过实验表明，构建基于 relaxed attention 的 transformer 架构，可以通过抑制自动回归 transformer 解码器的内部语言模型，实现有效地整合外部语言模型，并且提高了通用 transformer 架构的正则化能力。

Sep, 2022

利用动态注意力提升基于 Transformer 的大型语言模型的鲁棒性

通过提出一种名为动态注意力的新方法，我们设计了一个针对转换器架构的机制来增强模型本身对各种对抗性攻击的鲁棒性，从而显著减轻对抗性攻击的影响，并将其与其他防御方法（如对抗性训练）相结合以进一步增强模型的鲁棒性。

Nov, 2023

揭示自注意机制的漏洞

通过精心设计的注意力掩码，我们提出了强大的扰动技术 “HackAttend”，通过故意扰乱 SA 矩阵中的注意力分数，揭示了当前最先进的预训练语言模型在注意力微扰下的高度脆弱性，以及我们引入的新型平滑技术 “S-Attend” 在面对各种文本攻击时实现了与对抗训练相当的鲁棒性。

Feb, 2024

基于扰动的自监督注意力机制用于文本分类中的注意力偏向

本文提出了一种基于扰动的自监督注意力机制来指导注意力学习，以解决传统模型普遍专注于高频词且需要大量标记数据的问题，在三个文本分类任务上实验结果证明了该方法的有效性。

May, 2023

理解自监督音频 Transformer 的自注意力

本文介绍了多种针对 Self-supervised Audio Transformers 中注意力机制分析的策略，包括解释每种类型的注意力机制的功能、提供可视化工具以了解多头自注意力、重要性排名策略以识别关键注意力，以及注意力精炼技术以提高模型性能。

Jun, 2020