利用动态注意力提升基于 Transformer 的大型语言模型的鲁棒性
本文提出一种利用简单变换将外部知识纳入注意机制来使 NLI 模型更加稳健的方法,将其应用于 Transformer 编码器和可分解模型中,结果表明该方法可以显著提高它们的稳健性。并且,在与 BERT 预训练相结合时,在对抗 SNLI 数据集上实现了人类水平的性能。
Aug, 2019
通过直接操纵注意力模式,我们提出了一种新颖的特洛伊注意力损失(TAL),以增强特洛伊行为,并提高攻击成功率和污染率,不仅适用于传统的脏标签攻击,还适用于更具挑战性的干净标签攻击。
Oct, 2023
在本研究中,我们首次针对变形 Transformer 模型进行了注意力劫持的对抗攻击,我们证明了这些攻击不会传递到变形 Transformer,这是由于其稀疏的注意力结构。我们的实验表明,仅对输入领域的 1% 施加了修复区域就能导致 0% 的 AP,并且我们还展示了这些攻击能够有效支持不同的攻击者场景,因为它们能够在攻击者的控制下重定向注意力。
Nov, 2023
提出了一种与 Transformer 架构的自注意力机制兼容的替代性兼容函数,并在类似 BERT 模型的预训练中实现了对称的注意力机制,在 GLUE 基准测试中得分 79.36,减少了可训练参数数量的 6%,并将收敛前所需的训练步骤减少了一半。
Jun, 2024
本研究介绍了一种使用拓扑数据分析的文本分类器。我们使用 BERT 的关注映射转换为关注图作为该分类器的唯一输入。该模型可以解决区分邮件的垃圾邮件和普通邮件等任务,并在某些任务上表现出优于 BERT 基线的性能。此外,我们提出了一种新的方法来减少涉及拓扑分类器的 BERT 注意力头的数量。我们的工作还显示,拓扑模型在对抗性攻击方面表现出更高的鲁棒性,这一特性在减少注意力头的过程中保持不变。据我们所知,这项工作是在 NLP 领域中首次使用基于拓扑的模型来应对对抗性攻击。
Jun, 2022
本文提出对自然语言处理任务进行通用训练的技术,包括关注力对抗训练(Attention AT)和更易于解释的关注力对抗训练(Attention iAT)。该方法通过引入对抗扰动,增强了句子注意力的差异,提高了模型的预测性能和可解释性,并且尤其适用于关注力机制。实验表明,Attention iAT 在十项任务中表现最佳,并且其结果的注意力与基于梯度的单词重要性的相关性更强。此外,该方法不太依赖于对抗扰动的大小。
Sep, 2020
本文研究了 BERT 的注意力机制,探究了两个问题:如何使用注意力机制减少输入长度和如何将注意力用作条件文本生成的控制机制,并发现 BERT 的早期层对文本分类任务的关注度更高,其注意力和可以用于过滤给定序列的令牌,一定程度上减少了输入长度同时保持良好的测试准确性。
Mar, 2023
本文提出了一种受人类感知启发的注意力模型,并将其融合到现代神经网络架构中。实验结果表明,引入注意力机制可以显著提高模型的对抗鲁棒性,在各种随机攻击强度下可以达到最先进的 ImageNet 准确度;通过控制注意力步骤的数量可以使模型的防御能力更强,并且可以对抗更强的攻击;攻击模型生成的对抗样本有着与传统对抗样本不同的全局、显著和空间一致的结构,这些结构来自目标类别并且甚至可以被人类识别,会使模型注意力从原始图像中的主要物体分散开来。
Dec, 2019
本文提出了一种名为‘Trap of Mediocrity’的机制,并引入了一种基于结构透明的注意力正则化损失函数,能够有效地提高生成文本的多样性和新颖性,同时维持着在各种有条件和无条件的生成任务中相当的质量。
Nov, 2022
本研究通过提出对 Transformer 模型的自注意力机制进行改进,提出了 Adversarial Self-Attention(ASA)机制,旨在抑制模型对部分特征的依赖以及探索更广泛的语义,实现更好的泛化性能和鲁棒性。实验结果表明,在预训练和微调阶段中,使用 ASA 的模型相较于普通训练在长远步骤上获得了显著的性能提升,这些模型也能够在泛化性能和鲁棒性方面胜过普通模型。
Jun, 2022