并非所有的关注点都是您所需要的

Apr, 2021

并非所有的关注点都是您所需要的

Not All Attention Is All You Need

Hongqiu Wu, Hai Zhao, Min Zhang

TL;DR本文提出一种名为 AttendOut 的新的 dropout 方法，旨在让基于自注意力的 PrLMs 具备更加鲁棒的任务特定调整能力，从而实现更强的性能表现。通过在多项自然语言处理任务中的验证，证明了该方法的普适性。

Abstract

Beyond the success story of pre-trained language models (PrLMs) in recent natural language processing, they are susceptible to over-fitting due to unusual large model size. To this end, →

pre-trained language models dropout self-attention robust tuning natural language processing

发现论文，激发创造

AD-DROP: 基于归因的 Dropout 技术用于鲁棒性语言模型微调

该研究探讨了使用 dropout 来防止预训练语言模型在有限的数据训练时出现的过拟合问题，提出了一种名为 AD-DROP 的基于注意力机制的策略来防止高度依赖性的高注意力位置被过度舍弃，通过交替使用模型调优后和 AD-DROP 来避免过度舍弃高注意力位置，从而避免过度拟合问题。该研究实验结果表明，AD-DROP 可以提高模型的预测能力并防止过拟合现象的发生。

Oct, 2022

DropAttention: 一种全连接自注意力网络的正则化方法

探索在 Transformers 中规范化注意权重以防止过度拟合，并表明 DropAttention 能够提高性能并减少过度拟合。

Jul, 2019

神经语言模型的逐层正则化丢弃

我们提出了一种特别为基于 Transformer 的语言模型设计的新型 Layer-wise Regularized Dropout (LR-Drop) 方法，通过一些研究使用一致性训练在输出层对 dropout 进行规范化，每个 Transformer 层通过一致性训练策略进行层内规范化，通过在多个数据集上进行大量实验证明，LR-Drop 可以达到卓越的性能，包括最先进的结果。

Feb, 2024

更加关注自注意力：通过关注引导改进预训练语言模型

本文介绍了如何通过引入注意力机制创新地优化了预训练语言模型在信息检索和自然语言处理任务中的表现，提出了两种有效的注意力指导方法，并在多个预训练模型和数据集上进行了广泛的实验，取得了稳定的性能提升。

Apr, 2022

Transformer 模型中的关键要素：并非所有的注意力都是必要的

通过使用基于相似性的度量标准，本文研究了 Transformer 中不同模块（如 Blocks、MLP 和 Attention 层）之间的冗余性变化，发现一大部分 Attention 层可以被安全剪枝，从而降低内存和计算成本，并提出了一种同时舍弃 Attention 和 MLP 层的方法，进一步提升性能和降低比率。

Jun, 2024

揭示自注意机制的漏洞

通过精心设计的注意力掩码，我们提出了强大的扰动技术 “HackAttend”，通过故意扰乱 SA 矩阵中的注意力分数，揭示了当前最先进的预训练语言模型在注意力微扰下的高度脆弱性，以及我们引入的新型平滑技术 “S-Attend” 在面对各种文本攻击时实现了与对抗训练相当的鲁棒性。

Feb, 2024

神经生成的即时注意力调节

本研究通过分析语言模型在句子级别的注意力模式，发现神经退化可能与注意机制对任务特征的学习不足有关。因此，提出了一种称为‘实时注意力调节’的方法，该方法在推理过程中向注意力计算注入学习先验知识，有效地改善了语言模型生成的文本的流畅性、创造性和常识推理能力，并显著减少了句子级别的重复。

Jan, 2021

基于梯度学习的运行时剪枝加速注意力机制

通过引入一个软正则化器来优化自注意力机制的计算，新提出的 LeOPArd 位串行体系结构可以在不损害平均精度的情况下提高计算速度和降低能源消耗。

Apr, 2022

太大而无法失败：较大规模的语言模型对痴呆相关语言异常的诱导具有不成比例的抵抗力

神经网络的内在评估指标，困惑度（PPL），被广泛用于理解自回归神经语言模型（NLMs）的行为。该研究探索了一种新型的双向注意力头切除方法，其呈现了与人脑研究中认知和大脑储备概念相关的特性，暗示了转换器模型中的注意机制可能与神经退行性疾病和衰老的某些方面的进展有关。

Jun, 2024

LoRA 遇见 Dropout: 一个统一框架下的研究

基于对参数高效 LoRA 的研究，我们重新审视了特定于 Transformer 的 Dropout 方法的数学和经验上的等价性和区别，并基于此提出了一个统一的框架，揭示了当涉及到有限可训练参数时它们的新偏好和性能比较。这个框架还允许我们将最有利的方面融合成一个名为 HiddenKey 的新的 Dropout 方法，广泛的实验证实 HiddenKey 在多个模型和任务上具有显著的优势和足够性，将其作为大语言模型高性能和参数高效微调的首选方法。

Feb, 2024