Scheduled DropHead: Transformer 模型的正则化方法
探索在 Transformers 中规范化注意权重以防止过度拟合,并表明 DropAttention 能够提高性能并减少过度拟合。
Jul, 2019
本文重点分析和改进了 Vision Transformer 的自注意力层中关键的丢弃技术,并提出用于关键值的 dropout-before-softmax 方案和逐渐降低 dropout ratio 的方案,从而提高了 ViTs 在各种视觉任务中的效果。
Aug, 2022
介绍了 DropDim,一种用于规范 Transformer 中关键组件 —— 自我注意力机制的结构化丢弃方法。与通用的随机丢弃方法不同,DropDim 会丢弃嵌入维度的一部分,从而避免了嵌入维度间的过多协同适应。实验证明,DropDim 能够有效地提高模型性能,在防止过拟合和与其他规范方法互补方面表现出色。
Apr, 2023
本文介绍了一种新的结构化 dropout 形式 ——LayerDrop,该形式可在训练过程中实现正则化效果,在推理时允许有效的剪枝。作者通过实验证明了该方法对机器翻译、语言模型、文本摘要、问答和语言理解等基准测试的提升,并提出使用该方法可以得到更高质量的类 BERT 模型。
Sep, 2019
我们提出了一种特别为基于 Transformer 的语言模型设计的新型 Layer-wise Regularized Dropout (LR-Drop) 方法,通过一些研究使用一致性训练在输出层对 dropout 进行规范化,每个 Transformer 层通过一致性训练策略进行层内规范化,通过在多个数据集上进行大量实验证明,LR-Drop 可以达到卓越的性能,包括最先进的结果。
Feb, 2024
本文提出了一种可微的子集剪枝技术,通过学习每个头的重要性变量并对未剪枝的头数施加用户指定的硬约束,实现对多头注意力机制的剪枝;实验证明该技术可以实现精确控制稀疏度水平,并在自然语言推理和机器翻译方面的表现不亚于以往技术。
Aug, 2021
本文中介绍了一种简单的正则化方法 R-Drop,该方法强制不同子模型生成的输出分布相互一致,从而提高了深度学习模型的效果。通过在 5 个深度学习任务(包括神经机器翻译、摘要概括、语言理解、语言建模和图像分类)上的实验证明,R-Drop 是普遍有效的,并在 Vanilla Transformer 模型上实现了最先进的性能。
Jun, 2021
该研究探讨了使用 dropout 来防止预训练语言模型在有限的数据训练时出现的过拟合问题,提出了一种名为 AD-DROP 的基于注意力机制的策略来防止高度依赖性的高注意力位置被过度舍弃,通过交替使用模型调优后和 AD-DROP 来避免过度舍弃高注意力位置,从而避免过度拟合问题。该研究实验结果表明,AD-DROP 可以提高模型的预测能力并防止过拟合现象的发生。
Oct, 2022
研究了 Transformer 模型中的多头自注意力和编码器在神经机器翻译中的贡献和作用,提出了一种基于随机门和可微松弛 L0 正则化的新型剪枝方法,在不严重影响性能的情况下,成功删除了大部分注意头。
May, 2019
使用基于令牌级别的掩蔽训练策略,通过操纵多头注意力中的令牌连接来规范化 Transformer 的自注意力机制,以减少过拟合。该方法在多个自然语言处理任务中得到广泛评估,并证明在性能上优于其他规范化方法。
Oct, 2023