Feb, 2024

重尾类不平衡问题及 Adam 在语言模型上的优越性

TL;DRAdam 优化算法在大型语言模型上的性能明显优于梯度下降算法,主要原因是语言建模任务中存在的类别不平衡导致优化动态困难。