Jul, 2023

提高预训练语言模型的泛化能力

TL;DR预训练语言模型 (PLMs) 的可重用性常受到其泛化问题的限制,该问题表现为在评估与训练数据集不同的示例时,性能显著下降,被称为离群 / 未知示例。本文提出了一种名为 Mask-tuning 的训练方法,通过将掩码语言建模 (MLM) 训练目标整合到微调过程中,提高了 PLMs 的泛化能力。全面的实验证明,Mask-tuning 超越了当前最先进的技术,并增强了 PLMs 在离群数据集上的泛化能力,同时提高了它们在分布数据集上的性能。研究结果表明,Mask-tuning 改善了 PLMs 在未知数据上的可重用性,使其在实际应用中更加实用和有效。