Nov, 2023

显式优化神经网络减少反向传播需求并发现更好的极值

TL;DR基于反向传播的迭代微分逼近方法使得神经网络的优化成为可能,但目前仍然计算代价高昂,尤其是在大规模训练模型时。本文提出了一种计算效率高的神经网络优化替代方案,既能降低神经网络的扩展成本,又能为低资源应用提供高效的优化。通过数学分析其梯度,我们推导了一个明确的解决方案用于简单的前馈语言模型 (LM)。该解决方案可以推广到基于正值特征训练的所有单层前馈 softmax 激活神经模型,我们通过将该解决方案应用于 MNIST 数字分类问题进行了验证。在 LM 和数字分类器的实验中,我们发现在计算上,明确的解决方案可以接近最优解,同时证明了:1) 迭代优化对明确解决方案参数的改进仅有微小影响,2) 随机初始化参数通过迭代优化逐渐趋向于明确的解决方案。我们还初步将明确的解决方案局部应用于多层网络,并讨论了随着模型复杂性增加的解决方案的计算节约。对于明确解决方案的单层和多层应用,我们强调仅通过反向传播无法达到这些最优解,即只有在应用明确解决方案后才能发现更好的最优解。最后,我们讨论了解决方案的计算节约以及它对模型可解释性的影响,并提出了为推导复杂和多层体系结构的明确解决方案的未来方向。