ACLOct, 2021

针对模型锐度的最小化改进了语言模型泛化

TL;DR本文研究表明通过 Sharpness-Aware Minimization 优化方法,可以显著提高语言模型的泛化能力,进而在数据集有限的任务上取得更好的性能表现。