DropAttention: 一种全连接自注意力网络的正则化方法
该研究探讨了使用 dropout 来防止预训练语言模型在有限的数据训练时出现的过拟合问题,提出了一种名为 AD-DROP 的基于注意力机制的策略来防止高度依赖性的高注意力位置被过度舍弃,通过交替使用模型调优后和 AD-DROP 来避免过度舍弃高注意力位置,从而避免过度拟合问题。该研究实验结果表明,AD-DROP 可以提高模型的预测能力并防止过拟合现象的发生。
Oct, 2022
本文提出一种名为 AttendOut 的新的 dropout 方法,旨在让基于自注意力的 PrLMs 具备更加鲁棒的任务特定调整能力,从而实现更强的性能表现。通过在多项自然语言处理任务中的验证,证明了该方法的普适性。
Apr, 2021
本研究介绍了 DropHead,这是一种专门为规范化变压器的关键组件 —— 多头注意机制而设计的结构性 dropout 方法。DropHead 在训练期间将整个注意力头头部丢弃,以使得多头注意力模型更为高效地利用注意力头,同时减少了过拟合风险,实验证明了其有效性。
Apr, 2020
本文研究了快速 Dropout(一种用于常规线性模型和神经网络的正则化方法)的后向传递启发式视角,证明了它实现了自适应、参数之间的二次正则化项,对欠拟合情况下的大权重进行奖励,对过度自信预测进行惩罚,并在未正则化的训练损失极小值处消失。该正则化项的导数完全基于训练误差信号,因此没有全局权重吸引器,这可以改善 RNN 的性能。作者基于四个音乐数据集,证实了该假设。
Nov, 2013
介绍了 DropDim,一种用于规范 Transformer 中关键组件 —— 自我注意力机制的结构化丢弃方法。与通用的随机丢弃方法不同,DropDim 会丢弃嵌入维度的一部分,从而避免了嵌入维度间的过多协同适应。实验证明,DropDim 能够有效地提高模型性能,在防止过拟合和与其他规范方法互补方面表现出色。
Apr, 2023
本文重点分析和改进了 Vision Transformer 的自注意力层中关键的丢弃技术,并提出用于关键值的 dropout-before-softmax 方案和逐渐降低 dropout ratio 的方案,从而提高了 ViTs 在各种视觉任务中的效果。
Aug, 2022
本文提出了一种新的 dropout 方法 —— 学习 dropout 模式。通过控制器在每个通道和层生成 dropout 模式,并利用其对目标网络进行训练,该方法被证明对图像识别和语言模型都有效。通过学习 dropout 模式,该模式还可以适应不同的任务和数据集。
Jan, 2021
我们提出了一种特别为基于 Transformer 的语言模型设计的新型 Layer-wise Regularized Dropout (LR-Drop) 方法,通过一些研究使用一致性训练在输出层对 dropout 进行规范化,每个 Transformer 层通过一致性训练策略进行层内规范化,通过在多个数据集上进行大量实验证明,LR-Drop 可以达到卓越的性能,包括最先进的结果。
Feb, 2024
本文提出一种新的循环神经网络正则化方法,通过在 extit {循环} 链接中直接删除神经元来实现,并且不会丢失长期记忆,实验证明,该方法即使与传统的前馈 dropout 相结合,也能在自然语言处理基准测试中取得一致的改进。
Mar, 2016