Feb, 2024

反向 - 前向微分

TL;DR该研究论文探索了前向梯度计算作为可替代的反向传播方法,在可逆网络中减少内存占用的潜力,并引入了一种基于矢量 - 逆雅可比积的新技术,加速前向梯度计算并保持真实梯度的保真度。该方法在网络深度的时间复杂度是线性的,相比朴素前向传播的二次时间复杂度,计算时间可以显著降低,且不需要分配更多内存。通过将其与反向传播相结合,进一步加速了 Moonwalk,并在保持更小内存占用的同时达到与反向传播相当的时间复杂度。最后,论文展示了该方法在多种架构选择下的稳健性。Moonwalk 是第一个在可逆网络中计算真实梯度的前向方法,其计算时间与反向传播相当,并且占用的内存显著较少。