具有有界权重范数的多通道线性卷积网络的归纳偏置

Feb, 2021

具有有界权重范数的多通道线性卷积网络的归纳偏置

Inductive Bias of Multi-Channel Linear Convolutional Networks with Bounded Weight Norm

Meena Jagadeesan, Ilya Razenshteyn, Suriya Gunasekar

TL;DR本研究通过实验对基于梯度下降的线性和 ReLU 网络的隐式正则化进行了探讨，并提供了卷积神经网络，$\ell_2$ 规范、归纳偏置、规范化器和梯度下降等方面的理论研究。

Abstract

We provide a function space characterization of the inductive bias resulting from minimizing the $\ell_2$ norm of the weights in multi-channel convolutional neural networks with linear activations and empirically test our resulting hypothesis on ReLU networks trained using

convolutional neural network $\ell_2$ norm inductive bias regularizer gradient descent

发现论文，激发创造

有界范数无限宽度 ReLU 网络的函数空间视角：多元情况

本文研究了无限宽度的单隐藏层 ReLU 网络实现函数 f：R^d->R 的范数，其中权重的欧几里德范数是有界的，包括确定可实现有限范数的函数。此外，本文将一维函数的 L1 范数的二阶导数与多元函数的 Radon 变换的 L1 范数相关联，并得到了一些重要结论。

Oct, 2019

无限宽度有界范数网络在函数空间中的表现

探讨无界宽度的 ReLU 网络能够捕获什么样的函数，证明单隐层网络表示函数的最小网络范数，以及说明样本的最小范数拟合是通过线性样条插值实现的。

Feb, 2019

深度卷积网络中归纳偏见的理论分析

本文研究卷积神经网络中的归纳偏差，证明了一定深度下 CNN 可以进行连续函数的逼近以及 CNN 具有吸收长距离稀疏相关性的能力，并通过对称性分析证明权重共享与局部性对学习的重要性。

May, 2023

通过感知机的最小范数插值：显式正则化和隐式偏差

研究在使用 ReLU 网络时，通过对已知区域进行插值，证明了经验风险最小化器在数据点和参数数目趋向无穷大时收敛到最小范数插值者，当且仅当对应于网络宽度和数据点增长的特定速率消失时对权重衰减正则化项进行惩罚，在显式和隐式正则化情况下，数值方法研究了常见优化算法对已知最小范数插值者的隐含偏好。

Nov, 2023

训练不变量和低秩现象：超越线性网络

本论文研究神经网络训练中的隐性偏差，探究梯度流和梯度下降的极限情况下，使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中，提出了一些训练不变性，并以特定参数方向收敛的 ReLU 网络的常数权重和多线性函数作为论据进行证明。

Jan, 2022

神经网络是凸正则化器：两层神经网络的精确多项式时间凸优化公式

本文中，我们利用半无限对偶及最小规范化，将使用修正线性单元的两层神经网络的训练准确表述为单一凸程序，其变量数量与训练样本数量和隐藏层神经元数量呈多项式关系，并证明使用标准权重衰减进行修正线性单元网络训练的等效于带块 $l_1$ 惩罚的凸模型。此外，我们还证明了某些标准卷积线性网络等效于半定程序，可以在多项式大小的离散傅里叶特征空间中简化为带 $l_1$ 正则化的线性模型。

Feb, 2020

由 Ornstein-Uhlenbeck 过程驱动的深度神经网络的隐式正则化

研究采用随机梯度下降法训练的神经网络，通过对每一次迭代的训练标签进行独立噪声扰动，得到一个隐式正则化项，从而驱动网络向简单模型发展，并以矩阵感知、一维数据下的两层 ReLU 网络训练以及单数据点下的两层 sigmoid 激活网络训练等三个简单场景进行了阐述。

Apr, 2019

线性卷积网络中梯度下降的隐性偏差

本研究通过使用梯度下降法在全宽线性卷积网络上的实验，证明它在深度为 L 时收敛于一个与频域中的 L2/L bridge penalty 相关的线性预测器。与此相反，对于线性全连接网络，无论深度如何，梯度下降法都收敛于硬边界的线性支持向量机解。

Jun, 2018

本文提出了适用于 ReLU 神经网络的 Banach 空间，其中包含了所有有限全连接 L 层网络及其 L^2 - 极限对象，具有低的 Rademacher 复杂性和良好的泛化特性，函数可以通过多层神经网络进行近似，收敛速率与维度无关。

Jul, 2020

线性神经网络训练中隐性偏差的统一视角

研究了线性神经网络训练中渐进流（即用无穷小步长的梯度下降法）的隐含偏差；提出了神经网络的张量形式，包括全连接、对角线和卷积网络等特例，并研究了称为线性张量网络的公式的线性版本。通过这个公式，我们可以将网络的收敛方向表征为由网络定义的张量的奇异向量。

Oct, 2020