Mar, 2024

SOFIM:使用正则化的费歇尔信息矩阵进行随机优化

TL;DR该论文提出了一种基于正则化 Fisher 信息矩阵(FIM)的新的随机优化方法 SOFIM,可以高效地利用 FIM 来近似 Hessian 矩阵,从而在大规模机器学习模型的随机优化中找到牛顿梯度更新。SOFIM 可以视为自然梯度下降(NGD)的一种变体,通过使用正则化 FIM 和直接通过 Sherman-Morrison 矩阵求解梯度更新方向来解决存储和计算完整 FIM 的挑战。此外,SOFIM 类似于流行的 Adam 方法,利用梯度的一阶矩来解决由于异质数据导致的小批量非定常目标问题。正则化 FIM 和 Sherman-Morrison 矩阵求逆的利用使得在相同的空间和时间复杂度下,收敛速度得到了改进,与带动量的随机梯度下降(SGD)相当。对几个基准图像分类数据集上进行的大量实验表明,所提出的 SOFIM 方法在达到训练和测试损失以及测试准确性的预定目标方面,优于带动量的 SGD 和几种最先进的牛顿优化方法,如 Nystrom-SGD、L-BFGS 和 AdaHessian。