Jul, 2023

使用混合池化网络和 Drop Mask 改进 BERT

TL;DR本研究提出了一种融合了自注意力和池化网络以编码每个层中的不同上下文特征的 HybridBERT 模型,并提出了一种简单的 DropMask 方法,用于解决预训练和微调之间的不匹配问题。实验表明,HybridBERT 在预训练和迁移学习中均优于 BERT,并且 DropMask 改善了在各种掩码率下 BERT 的下游任务的准确性。