通过神经网络梯度下降无超参数化地记忆高斯函数

Mar, 2020

通过神经网络梯度下降无超参数化地记忆高斯函数

Memorizing Gaussians with no over-parameterizaion via gradient decent on neural networks

Amit Daniely

TL;DR本文证明了从正交初始化开始，使用 gradient descent 算法，对于深度网络中的一个步骤，使用 q 个 hidden neurons 可以在 Rd 上学习记忆 Ω(dq/log^4 (d)) 个独立的、随机标记的高斯函数，结论适用于绝对值等一系列激活函数。

Abstract

We prove that a single step of gradient decent over depth two network, with $q$ hidden neurons, starting from orthogonal initialization, can memorize $\Omega\left(\frac{dq}{\log^4(d)}\right)$ independent and rand

gradient descent depth two network hidden neurons randomly labeled gaussians activation functions

发现论文，激发创造

几乎无过度参数化的神经网络学习和记忆

本文研究了通过神经网络算法实现各种模型的多项式时间可学习性，证明了 SGD 在深度为二的神经网络上能够记忆样本、学习有界权重的多项式，以及学习某些内核空间，并且这些网络具有接近最优的网络大小、样本复杂度和运行时间。

Nov, 2019

过参数化矩阵感知和二次激活神经网络中的算法正则化

本文研究了正定矩阵和一层神经网络的学习问题，通过梯度下降算法和二次激活函数的方式来实现隐式正则化，提出利用 UU 转置参数化正定矩阵并最小化平方损失函数的方法来恢复正定矩阵，并且证明在初始值的基础上，梯度下降算法大约在 O (sqrt (r)) 步长内能复原正定矩阵。

Dec, 2017

双层神经网络在记忆中的网络尺寸和权重尺寸

使用复合的神经元重组，提出一种新的针对 ReLU 网络的训练方法，使得仅需使用数目较少的神经元就可以进行近似记忆，并且权重大小接近最优。

Jun, 2020

一种对深度阈值网络记忆容量的指数级提升

本篇论文证明了深度阈网络使用近似线性的神经元与权重便可实现存储数量为 n 在 d 维度的数据。同时，藉由将神经网络存储与纯几何问题上的超平面分离联系起来，论文也证明了一些新的下界。

Jun, 2021

神经网络中超参数化的强大作用与二次激活函数

本文研究了神经网络学习中超参数化的有效性，提出了一种使用局部搜索算法寻找全局最优解的方法，并使用 Rademacher 复杂性理论证明了在权重衰减的情况下，解决方案在数据采样自正态分布等正则分布的情况下也能很好地推广，同时还分析了具有二次激活函数和 n 个训练数据点的 k 个隐藏节点浅层网络的本质性质。

Mar, 2018

超参数化的两层 ReLU 神经网络学习研究：从 NTK 出发

本文研究采用梯度下降算法学习双层神经网络，证明其具有多项式样本和多项式时间复杂度，且可以学习到真实网络，而任何具有多项式样本的核方法均具有 Omega 误差下限。

Jul, 2020

神经网络在信息论极限附近通过梯度下降学习低维多项式

通过 SGD 优化的两层神经网络可学习任意多项式链接函数的单指数目标函数，并具有与信息理论界限相匹配的样本和运行时间复杂度。

Jun, 2024

关于学习超参数化神经网络的函数逼近视角

研究了使用梯度下降法在过度参数化的双层神经网络中训练，证明了在足够过度参数化的条件下，GD 方法可以近似地将振幅算子的幂应用于生成响应 / 标签的基础 / 目标函数 $f^*$，并且提供了使用低秩逼近来减少经验风险的线性速率的足够条件，介绍了适用于球面上的多项式的一般结果的应用

May, 2019

深度量子神经网络构成高斯过程

研究证明在量子神经网络中，基于 Haar 随机酉或正交深度 QNN 的输出会在大 Hilbert 空间维度 d 下收敛到高斯过程，但无法通过贝叶斯统计有效预测其输出，且浓缩度现象比以前预想的更糟，因为期望值和梯度浓缩为 O（1/e^d * sqrt（d））-- 在希尔伯特空间维度上呈指数级。

May, 2023

经过训练的量子神经网络是高斯过程

我们研究了使用参数化单量子比特门和固定双量子比特门构建的量子神经网络，研究表明在无限宽度限制下，随机初始化参数的未训练网络生成的函数的概率分布收敛于高斯过程。通过梯度下降法对网络进行训练时，网络可以完美拟合训练集，并且训练后生成的函数概率分布仍然收敛于高斯过程。测量结果的统计噪声对网络的影响在多项式数量的测量下是可忽略的，而且网络的训练时间也是多项式级别的。

Feb, 2024