神经网络训练中权重和输入之间的快速重要内积识别

Nov, 2023

神经网络训练中权重和输入之间的快速重要内积识别

Fast Heavy Inner Product Identification Between Weights and Inputs in Neural Network Training

Lianke Qin, Saayan Mitra, Zhao Song, Yuanyuan Yang, Tianyi Zhou

TL;DR我们考虑一种重内积识别问题，通过解决这个问题，我们的方法可以加速具有ReLU激活函数的神经网络的训练。

Abstract

In this paper, we consider a heavy inner product identification problem, which generalizes the light bulb problem~(\cite{prr89}): Given two sets $A \subset \{-1,+1\}^d$ and $B \subset \{-1,+1\}^d$ with $|A|=|B| =

发现论文，激发创造

神经网络中的内积替代品

从向量正交分解的角度分析神经网络中权重向量w和数据向量x的内积，提出了基于投影和反射积（PR Product）的内积算法，并开发了PR Product版本的完全连接层、卷积层和LSTM层，在CIFAR10和CIFAR100数据集上的实验显示，PR Product可以显著提高各种最先进的分类网络的能力，在图像字幕生成任务上，PR Product版本的图像字幕模型可以竞争或胜过最先进的模型，代码可通过链接获取。

Apr, 2019

解耦门控线性

研究了ReLU神经网络，引入了一种简化的模型，即门控线性单元（GaLU），并证明使用GaLU神经网络比使用ReLU神经网络更容易得到更强的优化和泛化结果，且当某些场景下，GaLU网络与ReLU网络的行为相似。

Jun, 2019

几乎无过度参数化的神经网络学习和记忆

本文研究了通过神经网络算法实现各种模型的多项式时间可学习性，证明了 SGD 在深度为二的神经网络上能够记忆样本、学习有界权重的多项式，以及学习某些内核空间，并且这些网络具有接近最优的网络大小、样本复杂度和运行时间。

Nov, 2019

双层神经网络在记忆中的网络尺寸和权重尺寸

使用复合的神经元重组，提出一种新的针对ReLU网络的训练方法，使得仅需使用数目较少的神经元就可以进行近似记忆，并且权重大小接近最优。

Jun, 2020

稳健识别深度神经网络的最小样本下纠缠权重的稳定恢复

本文介绍了一种基于纠缠权重的神经网络稳定可靠的识别算法，并对其在神经网络参数压缩和网络训练等方面的应用进行了探讨。

Jan, 2021

具有线性阈值激活函数的神经网络：结构与算法

本文研究了使用线性阈值激活函数的神经网络，探究了这种类型的函数可以被表示的范围，证明了用两层隐藏层可以表示任何在这个范围内的函数。同时提出了一种算法，用于解决这种类型神经网络的经验风险最小化问题，可以在多项式时间内进行。基于这些研究发现，我们提出了一种新型神经网络——快捷线性阈值网络。

Nov, 2021

神经网络使用SGD高效地学习低维表示

本文研究了使用随机梯度下降（SGD）训练任意宽度的两层神经网络（NN），其中输入x是高斯分布的，目标y遵循多指数模型，并证明了当基于SGD和权重衰减进行训练时，NN的第一层权重将收敛于真实模型的向量u1，...，uk所张成的k维主子空间，从而建立了一个独立于NN宽度的一般化误差边界，并进一步证明了，使用SGD训练的ReLU NNs可以通过恢复主方向来学习单指标目标，其样本复杂度与d成线性关系，而不是通过核区域中的任何p次多项式的已知d奥米（p）样本要求，这表明在初始化时使用SGD训练的NNs可以胜过神经切向核。

Sep, 2022

人工神经网络逼近某些平滑有界函数类的必要深度，无须维数灾难

本文研究了使用ReLU激活的浅层和深层人工神经网络的高维逼近能力，并且证明了使用深层ReLU人工神经网络可以解决简单逼近问题，而不能在多项式时间复杂度下使用浅层或不够深度的人工神经网络来解决。

Jan, 2023

关系函数和注意力机制的近似

通过分析内积关系，研究了神经网络特征图的内积在模拟输入之间的关系方面的广泛应用，证明了多层感知器自身的内积是对称正定关系函数的普遍逼近器，而两个不同多层感知器的内积是非对称关系函数的普遍逼近器，并通过内积关系将任何抽象预订定义的检索机制近似为注意力机制，从而应用于分析Transformer背后的注意力机制。同时，利用经济学中的Debreu表示定理以效用函数的形式表示偏好关系。

Feb, 2024

从宏观角度解密神经网络的懒惰训练

通过研究神经网络训练动态，探究权重参数在初始化过程中引入的各种因素之间的复杂相互作用，我们发现梯度下降可以快速将深层神经网络驱动至零训练误差，不论具体的初始化方案如何，只要输出函数的初始尺度超过一定阈值。这个区域被称为theta-lazy区域，突出了初始尺度在神经网络训练行为中的主导影响，同时我们还发现这个theta-lazy区域与神经切线核（NTK）范式有相似之处，但条件宽松。通过严格的分析，我们揭示了初始尺度kappa在神经网络训练动态中的关键作用。

Apr, 2024