May, 2023

许多深层网络的训练过程可以被解释为探索同一低维流形

TL;DR通过信息几何技术,分析深度网络在训练过程中的预测轨迹,揭示了网络训练过程中探索了一个有效低维度流形,在预测空间中,不同架构、大小、训练优化方法、正则化技术、数据增强技术和权重初始化的网络都在同一个流形上,并研究了该流形的细节,发现不同的网络架构遵循可区分的轨迹,但其他因素影响较小;较大的网络沿着较小的网络相似的流形进行训练,而且更快速;初始化于预测空间不同部分的网络也沿着相似的流形收敛到解决方案。