DropKey

CVPRAug, 2022

Bonan Li, Yinhan Hu, Xuecheng Nie, Congying Han, Xiangjian Jiang...

TL;DR本文重点分析和改进了 Vision Transformer 的自注意力层中关键的丢弃技术，并提出用于关键值的 dropout-before-softmax 方案和逐渐降低 dropout ratio 的方案，从而提高了 ViTs 在各种视觉任务中的效果。

Abstract

In this paper, we focus on analyzing and improving the dropout technique for self-attention layers of vision transformer, which is importa

dropout technique self-attention layers vision transformer dropout-before-softmax scheme model training

发现论文，激发创造

Scheduled DropHead: Transformer 模型的正则化方法

本研究介绍了 DropHead，这是一种专门为规范化变压器的关键组件 —— 多头注意机制而设计的结构性 dropout 方法。DropHead 在训练期间将整个注意力头头部丢弃，以使得多头注意力模型更为高效地利用注意力头，同时减少了过拟合风险，实验证明了其有效性。

Apr, 2020

DropAttention: 一种全连接自注意力网络的正则化方法

探索在 Transformers 中规范化注意权重以防止过度拟合，并表明 DropAttention 能够提高性能并减少过度拟合。

Jul, 2019

AD-DROP: 基于归因的 Dropout 技术用于鲁棒性语言模型微调

该研究探讨了使用 dropout 来防止预训练语言模型在有限的数据训练时出现的过拟合问题，提出了一种名为 AD-DROP 的基于注意力机制的策略来防止高度依赖性的高注意力位置被过度舍弃，通过交替使用模型调优后和 AD-DROP 来避免过度舍弃高注意力位置，从而避免过度拟合问题。该研究实验结果表明，AD-DROP 可以提高模型的预测能力并防止过拟合现象的发生。

Oct, 2022

DropDim：Transformer 网络的一种正则化方法

介绍了 DropDim，一种用于规范 Transformer 中关键组件 —— 自我注意力机制的结构化丢弃方法。与通用的随机丢弃方法不同，DropDim 会丢弃嵌入维度的一部分，从而避免了嵌入维度间的过多协同适应。实验证明，DropDim 能够有效地提高模型性能，在防止过拟合和与其他规范方法互补方面表现出色。

Apr, 2023

并非所有的关注点都是您所需要的

本文提出一种名为 AttendOut 的新的 dropout 方法，旨在让基于自注意力的 PrLMs 具备更加鲁棒的任务特定调整能力，从而实现更强的性能表现。通过在多项自然语言处理任务中的验证，证明了该方法的普适性。

Apr, 2021

DeepViT: 朝更深层次的 Vision Transformer 进发

本文发现 Vision transformers 模型存在 attention collapse issue 现象，即 transformer 模型越深层次的注意力权重变得越相似，严重影响模型性能，提出了一种名为 Re-attention 的有效方法来解决该问题，使得 32 层的 Vision transformers 模型在 ImageNet 数据集的 Top-1 分类准确率上提高了 1.6%。

Mar, 2021

视觉 Transformer 的每个阶段只需要更少的注意力

Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.

Jun, 2024

无 Softmax 的线性变换器

提出 SOftmax-Free Transformer (SOFT)，其采用高斯核函数替代点积相似度，从而能够通过低秩矩阵分解逼近完整的自注意力矩阵，该模型能够明显提高现有 ViT 变体的计算效率，同时具有线性复杂度，且能够容纳更长的令牌序列，优化了准确率和复杂度之间的权衡。

Jul, 2022

基于傅里叶域分析的深度视觉变换器中的防过度平滑技术：从理论到实践

本研究针对 Vision Transformer 深度增加时性能达到饱和的问题提出了两种有效而无需超参数的技术 AttnScale 和 FeatScale，能够有效克服与注意力折叠和补丁均匀性等相关的 ViT 训练伪像。

Mar, 2022

KVT：使用 k-NN 注意力增强视觉 Transformers

本文提出了一种 K-NN 自注意力机制，具有更好的速度和准确率，且适用于各种不同种类的 transformer 结构，从而可以提高图像识别的性能。

May, 2021