使用混合池化网络和 Drop Mask 改进 BERT

Jul, 2023

使用混合池化网络和 Drop Mask 改进 BERT

Improving BERT with Hybrid Pooling Network and Drop Mask

Qian Chen, Wen Wang, Qinglin Zhang, Chong Deng, Ma Yukun...

TL;DR本研究提出了一种融合了自注意力和池化网络以编码每个层中的不同上下文特征的 HybridBERT 模型，并提出了一种简单的 DropMask 方法，用于解决预训练和微调之间的不匹配问题。实验表明，HybridBERT 在预训练和迁移学习中均优于 BERT，并且 DropMask 改善了在各种掩码率下 BERT 的下游任务的准确性。

Abstract

Transformer-based pre-trained language models, such as bert, achieve great success in various natural language understanding tasks. Prior research found that →

pre-trained language models bert hybridbert dropmask downstream tasks

发现论文，激发创造

高效 BERT 预训练的 Token Dropping

提出了一种基于 token dropping 方法的简单有效的预训练加速技术，可以在不影响下游任务性能的前提下，将 BERT 的预训练成本减少 25%。该方法通过在中间层开始丢弃不重要的 token，使模型更专注于重要的 token，然后让最后一层重新生成完整的序列，这可以通过利用 Masked Language Modeling 的已建成的 loss 函数来实现，计算代价几乎为零。

Mar, 2022

NarrowBERT: 增强遮蔽语言模型的预训练和推理速度

本文介绍了一种修改的 transformer 编码器 --NarrowBERT，其通过使自注意力查询和前向层仅在预训练期间的屏蔽令牌上操作，从而增加了掩码语言模型预训练的吞吐量。此外，本文还显示，与 MNLI 等句子编码任务相比，NarrowBERT 在推理时间的吞吐量提高了多达 3.5 倍，性能降低最小（或没有），并且在 IMDB，亚马逊评论分类和 CoNLL NER 任务上的 NarrowBERT 表现也与标准 BERT 相当。

Jan, 2023

TrimBERT: 为折衷而量身定制的 BERT 模型

本文介绍了一种方法：通过减少 BERT-Base 模型中的中间层数量来达到压缩模型、加快训练速度且不影响下游任务的准确性的效果，同时使用计算上更简单的技术代替自注意力层中的 softmax 操作并删除一半的层归一化层以进一步减少训练时间。

Feb, 2022

DrBERT: BERT 预训练中揭示掩码语言模型解码器的潜力

提出了多个增强的解码器设计，并引入了 DrBERT（经过解码器优化的 BERT）作为一种新方法进行模型训练，通过微调对原始 BERT 模型的解码器进行改进，有效提高了模型性能而不增加推理时间和资源使用。

Jan, 2024

通过主动学习对 BERT 进行微调，以提高低资源自然语言理解能力

本文探讨了在数据点少于 1,000 的低资源环境下利用基于预训练 Transformer 的语言模型的微调方法，通过利用基于池的主动学习加速训练同时保持标记新数据的成本不变。实验结果表明，通过最大化从未标记数据池中查询的模型的近似知识收益，可提高模型性能。最后，我们演示并分析了语言模型冻结层的好处，以减少可训练参数的数量，使其更适用于低资源环境。

Dec, 2020

使用多语言 BERT 进行零样本跨语言迁移中的特征聚合

本文探讨了利用 mBERT 最后一个 transformer 层以外的信息，采用基于 attention 机制的特征聚合模块，对不同层次的信息进行融合。实验结果表明，在 XNLI、PAWS-X、NER、POS 等关键领域任务中，该方法在零 - shot Cross-lingual 下具有良好的性能提升，并且探讨了 mBERT 的可解释性。

May, 2022

使用选择性屏蔽作为预训练和微调之间的桥梁

该研究提出了一种使用任务特定掩码的方法，通过修改预训练的 BERT 模型来适应下游任务。研究结果表明，这种选择性掩码策略优于随机掩码，具有较好的效果。

Nov, 2022

混合自注意力网络用于机器翻译

本研究中，我们提出了一种名为 HySAN 的新型自注意力机制，它可以通过针对不同类型的自注意力网络设计特定的掩码来提取各种语义，并引入挤压门来融合不同类型的自注意力网络，在三个机器翻译任务上实现了优于 Transform 的显著基线，并实现了超越最先进的 NMT 系统的卓越结果。

Nov, 2018

TLM：用于 Transformer 的令牌级屏蔽

使用基于令牌级别的掩蔽训练策略，通过操纵多头注意力中的令牌连接来规范化 Transformer 的自注意力机制，以减少过拟合。该方法在多个自然语言处理任务中得到广泛评估，并证明在性能上优于其他规范化方法。

Oct, 2023

使用基于跨度的动态卷积来改进 BERT 的 ConvBERT

本文提出一种用于自然语言理解中的深度神经网络模型 ConvBERT，用于替换 BERT 中占用计算和存储的全局自我注意力块，以实现更高效的全局和局部语境学习，经实验证明，在各种下游任务中，ConvBERT 均能显著优于 BERT 及其变体，且训练成本更低。

Aug, 2020