神经网络训练中权重和输入之间的快速重要内积识别
从向量正交分解的角度分析神经网络中权重向量w和数据向量x的内积,提出了基于投影和反射积(PR Product)的内积算法,并开发了PR Product版本的完全连接层、卷积层和LSTM层,在CIFAR10和CIFAR100数据集上的实验显示,PR Product可以显著提高各种最先进的分类网络的能力,在图像字幕生成任务上,PR Product版本的图像字幕模型可以竞争或胜过最先进的模型,代码可通过链接获取。
Apr, 2019
研究了ReLU神经网络,引入了一种简化的模型,即门控线性单元(GaLU),并证明使用GaLU神经网络比使用ReLU神经网络更容易得到更强的优化和泛化结果,且当某些场景下,GaLU网络与ReLU网络的行为相似。
Jun, 2019
本文研究了通过神经网络算法实现各种模型的多项式时间可学习性,证明了 SGD 在深度为二的神经网络上能够记忆样本、学习有界权重的多项式,以及学习某些内核空间,并且这些网络具有接近最优的网络大小、样本复杂度和运行时间。
Nov, 2019
本文研究了使用线性阈值激活函数的神经网络,探究了这种类型的函数可以被表示的范围,证明了用两层隐藏层可以表示任何在这个范围内的函数。同时提出了一种算法,用于解决这种类型神经网络的经验风险最小化问题,可以在多项式时间内进行。基于这些研究发现,我们提出了一种新型神经网络——快捷线性阈值网络。
Nov, 2021
本文研究了使用随机梯度下降(SGD)训练任意宽度的两层神经网络(NN),其中输入x是高斯分布的,目标y遵循多指数模型,并证明了当基于SGD和权重衰减进行训练时,NN的第一层权重将收敛于真实模型的向量u1,...,uk所张成的k维主子空间,从而建立了一个独立于NN宽度的一般化误差边界,并进一步证明了,使用SGD训练的ReLU NNs可以通过恢复主方向来学习单指标目标,其样本复杂度与d成线性关系,而不是通过核区域中的任何p次多项式的已知d奥米(p)样本要求,这表明在初始化时使用SGD训练的NNs可以胜过神经切向核。
Sep, 2022
本文研究了使用ReLU激活的浅层和深层人工神经网络的高维逼近能力,并且证明了使用深层ReLU人工神经网络可以解决简单逼近问题,而不能在多项式时间复杂度下使用浅层或不够深度的人工神经网络来解决。
Jan, 2023
通过分析内积关系,研究了神经网络特征图的内积在模拟输入之间的关系方面的广泛应用,证明了多层感知器自身的内积是对称正定关系函数的普遍逼近器,而两个不同多层感知器的内积是非对称关系函数的普遍逼近器,并通过内积关系将任何抽象预订定义的检索机制近似为注意力机制,从而应用于分析Transformer背后的注意力机制。同时,利用经济学中的Debreu表示定理以效用函数的形式表示偏好关系。
Feb, 2024
通过研究神经网络训练动态,探究权重参数在初始化过程中引入的各种因素之间的复杂相互作用,我们发现梯度下降可以快速将深层神经网络驱动至零训练误差,不论具体的初始化方案如何,只要输出函数的初始尺度超过一定阈值。这个区域被称为theta-lazy区域,突出了初始尺度在神经网络训练行为中的主导影响,同时我们还发现这个theta-lazy区域与神经切线核(NTK)范式有相似之处,但条件宽松。通过严格的分析,我们揭示了初始尺度kappa在神经网络训练动态中的关键作用。
Apr, 2024