Feb, 2024

神经语言模型的逐层正则化丢弃

TL;DR我们提出了一种特别为基于 Transformer 的语言模型设计的新型 Layer-wise Regularized Dropout (LR-Drop) 方法,通过一些研究使用一致性训练在输出层对 dropout 进行规范化,每个 Transformer 层通过一致性训练策略进行层内规范化,通过在多个数据集上进行大量实验证明,LR-Drop 可以达到卓越的性能,包括最先进的结果。