Mar, 2025

深度学习训练的三重惯性加速交替优化方法

TL;DR本研究针对随机梯度下降算法在深度学习模型训练中存在的梯度消失和收敛速度慢等问题,提出了一种新的三重惯性加速交替最小化框架(TIAM)。该方法通过引入三重惯性加速策略和特殊的近似方法,有效提高了模型训练的收敛效率,实验证明其在普适性和计算效率上均显著优于现有方法,尤其在使用修正线性单元及其变体时表现突出。