揭示自注意机制的漏洞

Feb, 2024

Unveiling Vulnerability of Self-Attention

Khai Jiet Liong, Hongqiu Wu, Hai Zhao

TL;DR通过精心设计的注意力掩码，我们提出了强大的扰动技术 “HackAttend”，通过故意扰乱 SA 矩阵中的注意力分数，揭示了当前最先进的预训练语言模型在注意力微扰下的高度脆弱性，以及我们引入的新型平滑技术 “S-Attend” 在面对各种文本攻击时实现了与对抗训练相当的鲁棒性。

Abstract

pre-trained language models (PLMs) are shown to be vulnerable to minor word changes, which poses a big threat to real-world systems. While previous studies directly focus on manipulating word inputs, they are limited by their means of generating adversarial samples, lacking generalizat

pre-trained language models vulnerability transformer-based plms perturbation technique structural perturbations

发现论文，激发创造

更加关注自注意力：通过关注引导改进预训练语言模型

本文介绍了如何通过引入注意力机制创新地优化了预训练语言模型在信息检索和自然语言处理任务中的表现，提出了两种有效的注意力指导方法，并在多个预训练模型和数据集上进行了广泛的实验，取得了稳定的性能提升。

Apr, 2022

通过手工制作的对抗性例子评估预训练语言模型的容易受攻击性

本文探讨了最新的预训练语言模型（PLMs），包括 GPT-3 和 BERT，存在安全漏洞，使其容易受到对抗性攻击的影响，并提出了一种有效的对抗方法来测试模型的语义相似性并减少其分类质量。

Sep, 2022

对抗式自注意力用于语言理解

本研究通过提出对 Transformer 模型的自注意力机制进行改进，提出了 Adversarial Self-Attention（ASA）机制，旨在抑制模型对部分特征的依赖以及探索更广泛的语义，实现更好的泛化性能和鲁棒性。实验结果表明，在预训练和微调阶段中，使用 ASA 的模型相较于普通训练在长远步骤上获得了显著的性能提升，这些模型也能够在泛化性能和鲁棒性方面胜过普通模型。

Jun, 2022

并非所有的关注点都是您所需要的

本文提出一种名为 AttendOut 的新的 dropout 方法，旨在让基于自注意力的 PrLMs 具备更加鲁棒的任务特定调整能力，从而实现更强的性能表现。通过在多项自然语言处理任务中的验证，证明了该方法的普适性。

Apr, 2021

显著关注和语义相似性驱动的对抗扰动

本研究提出了一种增强型的文本对抗攻击方法，称为 Saliency Attention and Semantic Similarity driven adversarial Perturbation (SASSP)。该方法通过整合显著性、注意力和语义相似性，提高了上下文扰动的效果。实验证明，SASSP 不仅生成高度语义保真的对抗样本，而且有效地欺骗了最先进的自然语言处理模型。

Jun, 2024

系统 2 关注力（您可能也需要）

为了改善 Transformers 大型语言模型中软关注对上下文的无关信息进行纳入对下一个标记生成产生副作用的问题，我们引入了系统 2 关注（S2A），它利用语言模型推理和遵循指令来决定应该关注什么，并通过重构上下文来提取相关部分，然后关注这个重构上下文来引出最终的响应。在包含观点或无关信息、问答、数学问题和长文生成的三个任务上实验证明，S2A 比基于标准关注的语言模型表现更好，能提高事实性和客观性，并减少阿谀奉承。

Nov, 2023

SA-Attack: 通过自我增强改善视觉语言预训练模型的对抗可转移性

通过总结和分析现有研究，我们确定了可以影响 Visual-Language Pre-training 模型上的转移攻击效果的两个因素：跨模态交互和数据多样性。基于这些观察，我们提出了一种新的基于自我增强的转移攻击方法，称为 SA-Attack。我们在 Flickr30K 和 COCO 数据集上的实验证实了我们方法的有效性。

Dec, 2023

变压器中的注意力 - 相似度关系

我们分析了大型语言模型（LLMs）如何表示上下文之外的单词，研究它们依赖所给上下文来捕捉其语义的情况。我们的文本扰动指导了似然性，揭示了变形器模型中令牌似然性和注意力值之间的相关性。广泛的实验表明，意外的令牌会导致模型不太关注来自自身的信息以计算它们的表示，特别是在较高的层次上。这些发现对于评估 LLMs 在真实世界场景中的鲁棒性具有重要的影响。

Mar, 2023

利用持久内存扩展自注意力

该研究提出了一种新的模型，该模型仅由注意力层组成。在具体实现中，加入了持续性存储向量来代替前馈层，这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示，该模型在标准字符和词级语言建模基准上表现出良好的效果。

Jul, 2019

理解自注意力的规律性与最优传输

通过研究自注意力的局部李普希茨常数，本文在测度论框架下改进了先前的结果，从理论角度探讨了 Transformer 和多头注意力机制在神经网络的鲁棒性问题，并发现高局部李普希茨常数的测度通常由少数的狄拉克函数组成，且质量分布不均衡。此外，本文还分析了自注意力在改变令牌数的扰动下的稳定性，发现在某些输入情况下，复制令牌的攻击比仅移动令牌的攻击效果更好，称之为质量分裂现象。

Dec, 2023