回归即分类:任务形式对神经网络特征的影响
分析了具有同质性激活函数的两层神经网络在无限宽的情况下的训练和泛化行为,并表明在存在低维结构的情况下,梯度流的极限可以完全表征为某些函数空间中的最大间隔分类器,并且具有强的泛化边界,在实践中符合两层神经网络的行为,并证明了其隐式偏差的统计优点。
Feb, 2020
研究神经网络的优化问题,发现常见的损失函数在实现空间上是凸的,通过使用神经网络的近似能力来处理非凸性问题,利用 Sobolev norm 来建立一种限制的参数化空间来实现反稳定性,并证明在受限制的参数化空间内优化仍然可以学习任何可通过无限制优化学习的函数。
May, 2019
通过对具有 ReLU 激活函数的一层神经网络的分析,我们发现神经网络具有良好的优化特性,其具有多样的单元没有虚假局部最小值,在满足 “扩展特征矩阵” 的最小奇异值足够大的条件下,可以使损失函数变得任意小。
Nov, 2016
本论文研究神经网络训练中的隐性偏差,探究梯度流和梯度下降的极限情况下,使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中,提出了一些训练不变性,并以特定参数方向收敛的 ReLU 网络的常数权重和多线性函数作为论据进行证明。
Jan, 2022
针对非线性神经网络的回归损失(如平方损失),研究其隐含正则化(即隐含偏差)的特性,虽然已成为一个活跃的研究领域,但迄今为止仍未得到深入探究。本文通过一些证明,表明甚至对于单个 ReLU 神经元,无法利用原模型参数的任何显式函数来表征隐含正则化特性(尽管我们可以近似表征),对于一层隐藏层的网络而言也存在类似的现象。本研究建议采用比目前更加广泛的框架来理解非线性预测的隐性正则化,并提供了一些线索。
Dec, 2020
通过研究具有一个隐藏层的网络的学习动态,我们发现网络的激活函数对于表示几何的影响强于预期:Tanh 网络倾向于学习反映目标输出结构的表示,而 ReLU 网络保留了更多关于原始输入结构的信息。这种差异在广泛的参数化任务中一直存在,我们在这些任务中调节任务输入的几何与任务标签的对齐程度。我们通过分析权重空间中的学习动态,说明了 Tanh 和 ReLU 非线性网络之间的差异是由于 ReLU 的非对称渐近行为导致的,这导致特征神经元专门针对输入空间的不同区域。相比之下,Tanh 网络中的特征神经元倾向于继承任务标签结构。因此,当目标输出是低维时,Tanh 网络生成的神经表示比采用 ReLU 非线性的表示更具解耦性。我们的发现揭示了神经网络中输入输出几何、非线性和学习表示之间的相互作用。
Jan, 2024
基于统一框架,我提出了一种解释神经网络分类器的方法,该方法旨在自动化科学发现,通过将训练好的神经网络嵌入到一组基于相同数量的分类函数的等价类中,并通过搜索符号回归的搜索空间定义的人类可读方程与该等价类之间的交集来解释神经网络。
Jan, 2024
本文探讨了二层 ReLU 神经网络梯度下降训练过程中的特征学习,研究了使用 XOR 函数生成的带标签二进制数据,对一定比例的训练标签的干扰具有影响。我们证明了线性分类器并不比随机猜测的效果更好,而使用梯度下降训练二层 ReLU 神经网络可以达到接近噪声率的泛化误差。我们提出了一种新的证明技术,证明了在初始化时,绝大多数神经元都具有随机特征的性质,与有用特征之间的相关性较弱,而梯度下降动态将这些弱随机特征 “放大” 为强有用特征。
Feb, 2022