Jul, 2024

拆解语言模型优化器的优秀特质

TL;DR通过实验比较不同优化算法在自回归语言模型中的性能,我们发现除了SGD外,其他算法在性能和超参数选择方面表现相似,因此实际考虑内存限制和实施便捷性等实际因素可以指导优化器的选择。同时我们还将Adam算法简化为Signum和Adalayer两个版本来进行研究,发现Adam算法的预调节主要影响最后一层和LayerNorm参数,而其余层可以使用SGD来训练。