Jun, 2024

BADM: 深度学习的批量ADMM

TL;DR基于随机梯度下降的算法用于训练深度神经网络,但通常收敛速度较慢。为了解决这个挑战,我们利用交替方向乘子法(ADMM)的框架开发了一种新的数据驱动算法,称为批量ADMM(BADM)。该算法的基本思想是将训练数据划分为批次,进一步将其分成子批次,在此过程中通过聚合更新原始和对偶变量以生成全局参数。我们评估了BADM在各种深度学习任务中的性能,包括图建模、计算机视觉、图像生成和自然语言处理。广泛的数值实验表明,与其他先进优化器相比,BADM实现了更快的收敛速度和优越的测试准确性。