Jun, 2024

神经网络参数在训练过程中的信息几何进化

TL;DR应用信息几何框架研究人工神经网络(ANN)训练过程中的相变行为与过拟合之间的关联,通过研究 ANN 参数的概率分布,利用差分几何原理构建概率分布函数的黎曼流形,观察到 ANN 在训练过程中在流形上的运动发生相变,该相变与 ANN 模型的过拟合有数学上的相似性,为增强 ANN 的解释能力和可解释性提供了有用的工具。