EMNLPDec, 2022
通过随机权重平均改进预训练语言模型的泛化能力
Improving Generalization of Pre-trained Language Models via Stochastic Weight Averaging
Peng Lu, Ivan Kobyzev, Mehdi Rezagholizadeh, Ahmad Rashid, Ali Ghodsi...
TL;DR本文提出了一种基于 Stochastic Weight Averaging 的优化方法,用于改善预训练语言模型在 NLP 任务中的泛化能力,而无需额外计算成本,并展示了其在不同模型架构和任务中的出色表现。