DropKey
本研究介绍了 DropHead,这是一种专门为规范化变压器的关键组件 —— 多头注意机制而设计的结构性 dropout 方法。DropHead 在训练期间将整个注意力头头部丢弃,以使得多头注意力模型更为高效地利用注意力头,同时减少了过拟合风险,实验证明了其有效性。
Apr, 2020
探索在 Transformers 中规范化注意权重以防止过度拟合,并表明 DropAttention 能够提高性能并减少过度拟合。
Jul, 2019
该研究探讨了使用 dropout 来防止预训练语言模型在有限的数据训练时出现的过拟合问题,提出了一种名为 AD-DROP 的基于注意力机制的策略来防止高度依赖性的高注意力位置被过度舍弃,通过交替使用模型调优后和 AD-DROP 来避免过度舍弃高注意力位置,从而避免过度拟合问题。该研究实验结果表明,AD-DROP 可以提高模型的预测能力并防止过拟合现象的发生。
Oct, 2022
介绍了 DropDim,一种用于规范 Transformer 中关键组件 —— 自我注意力机制的结构化丢弃方法。与通用的随机丢弃方法不同,DropDim 会丢弃嵌入维度的一部分,从而避免了嵌入维度间的过多协同适应。实验证明,DropDim 能够有效地提高模型性能,在防止过拟合和与其他规范方法互补方面表现出色。
Apr, 2023
本文提出一种名为 AttendOut 的新的 dropout 方法,旨在让基于自注意力的 PrLMs 具备更加鲁棒的任务特定调整能力,从而实现更强的性能表现。通过在多项自然语言处理任务中的验证,证明了该方法的普适性。
Apr, 2021
本文发现 Vision transformers 模型存在 attention collapse issue 现象,即 transformer 模型越深层次的注意力权重变得越相似,严重影响模型性能,提出了一种名为 Re-attention 的有效方法来解决该问题,使得 32 层的 Vision transformers 模型在 ImageNet 数据集的 Top-1 分类准确率上提高了 1.6%。
Mar, 2021
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024
提出 SOftmax-Free Transformer (SOFT),其采用高斯核函数替代点积相似度,从而能够通过低秩矩阵分解逼近完整的自注意力矩阵,该模型能够明显提高现有 ViT 变体的计算效率,同时具有线性复杂度,且能够容纳更长的令牌序列,优化了准确率和复杂度之间的权衡。
Jul, 2022
本研究针对 Vision Transformer 深度增加时性能达到饱和的问题提出了两种有效而无需超参数的技术 AttnScale 和 FeatScale,能够有效克服与注意力折叠和补丁均匀性等相关的 ViT 训练伪像。
Mar, 2022
本文提出了一种 K-NN 自注意力机制,具有更好的速度和准确率,且适用于各种不同种类的 transformer 结构,从而可以提高图像识别的性能。
May, 2021