May, 2023

Deep ReLU 网络拥有令人惊讶的简单多面体

TL;DR本文利用三角化的方法研究了 ReLU 网络在初始化和梯度下降时的多面体形状,并发现它们相对简单,这是一种新的隐式偏差。此外,本研究还通过界定多面体面的平均数来理论上解释了为什么增加深度不会创建更复杂的多面体,并揭示了网络的简单函数模型和空间分割特性,这些结果具有重要的功能复杂性度量、正则化策略影响等方面的应用潜力。