使用混合池化网络和 Drop Mask 改进 BERT
提出了一种基于 token dropping 方法的简单有效的预训练加速技术,可以在不影响下游任务性能的前提下,将 BERT 的预训练成本减少 25%。该方法通过在中间层开始丢弃不重要的 token,使模型更专注于重要的 token,然后让最后一层重新生成完整的序列,这可以通过利用 Masked Language Modeling 的已建成的 loss 函数来实现,计算代价几乎为零。
Mar, 2022
本文介绍了一种修改的 transformer 编码器 --NarrowBERT,其通过使自注意力查询和前向层仅在预训练期间的屏蔽令牌上操作,从而增加了掩码语言模型预训练的吞吐量。 此外,本文还显示,与 MNLI 等句子编码任务相比,NarrowBERT 在推理时间的吞吐量提高了多达 3.5 倍,性能降低最小(或没有),并且在 IMDB,亚马逊评论分类和 CoNLL NER 任务上的 NarrowBERT 表现也与标准 BERT 相当。
Jan, 2023
本文介绍了一种方法:通过减少 BERT-Base 模型中的中间层数量来达到压缩模型、加快训练速度且不影响下游任务的准确性的效果,同时使用计算上更简单的技术代替自注意力层中的 softmax 操作并删除一半的层归一化层以进一步减少训练时间。
Feb, 2022
提出了多个增强的解码器设计,并引入了 DrBERT(经过解码器优化的 BERT)作为一种新方法进行模型训练,通过微调对原始 BERT 模型的解码器进行改进,有效提高了模型性能而不增加推理时间和资源使用。
Jan, 2024
本文探讨了在数据点少于 1,000 的低资源环境下利用基于预训练 Transformer 的语言模型的微调方法,通过利用基于池的主动学习加速训练同时保持标记新数据的成本不变。实验结果表明,通过最大化从未标记数据池中查询的模型的近似知识收益,可提高模型性能。最后,我们演示并分析了语言模型冻结层的好处,以减少可训练参数的数量,使其更适用于低资源环境。
Dec, 2020
本文探讨了利用 mBERT 最后一个 transformer 层以外的信息,采用基于 attention 机制的特征聚合模块,对不同层次的信息进行融合。实验结果表明,在 XNLI、PAWS-X、NER、POS 等关键领域任务中,该方法在零 - shot Cross-lingual 下具有良好的性能提升,并且探讨了 mBERT 的可解释性。
May, 2022
该研究提出了一种使用任务特定掩码的方法,通过修改预训练的 BERT 模型来适应下游任务。研究结果表明,这种选择性掩码策略优于随机掩码,具有较好的效果。
Nov, 2022
本研究中,我们提出了一种名为 HySAN 的新型自注意力机制,它可以通过针对不同类型的自注意力网络设计特定的掩码来提取各种语义,并引入挤压门来融合不同类型的自注意力网络,在三个机器翻译任务上实现了优于 Transform 的显著基线,并实现了超越最先进的 NMT 系统的卓越结果。
Nov, 2018
使用基于令牌级别的掩蔽训练策略,通过操纵多头注意力中的令牌连接来规范化 Transformer 的自注意力机制,以减少过拟合。该方法在多个自然语言处理任务中得到广泛评估,并证明在性能上优于其他规范化方法。
Oct, 2023
本文提出一种用于自然语言理解中的深度神经网络模型 ConvBERT,用于替换 BERT 中占用计算和存储的全局自我注意力块,以实现更高效的全局和局部语境学习,经实验证明,在各种下游任务中,ConvBERT 均能显著优于 BERT 及其变体,且训练成本更低。
Aug, 2020