- ReLU 网络在平方损失下的隐式正则化
针对非线性神经网络的回归损失(如平方损失),研究其隐含正则化(即隐含偏差)的特性,虽然已成为一个活跃的研究领域,但迄今为止仍未得到深入探究。本文通过一些证明,表明甚至对于单个 ReLU 神经元,无法利用原模型参数的任何显式函数来表征隐含正则 - 形状对噪声协方差隐式偏差的影响
本文中,我们理论上证明了随机梯度下降法(SGD)中参数相关噪声(由小批量或标签扰动引起)比高斯噪声更加有效,并且具有对训练过度参数化模型的重要隐式正则化效应。
- 深度学习中的隐式正则化可能无法通过规范解释
通过矩阵分解问题的数学建模,探究梯度优化算法所诱导的隐含正则化问题,研究发现规范(norms)不能完全解释矩阵分解问题中的正则化问题,通过实验证明排名(rank)是更有用的解释方式以及有可能解释深度学习中的泛化问题。
- ICML随机梯度流对最小二乘隐式正则化
研究隐式正则化的小批量随机梯度下降,以最小二乘回归为基础问题,利用具有与随机梯度下降相同矩的连续时间随机微分方程,称为随机梯度流。给出了随时间 t 随机梯度流的超额风险的界限,超过了具有调整参数 λ=1/t 的岭回归,此界限可以从明确的常数 - 隐性偏见能否解释泛化问题?随机凸优化作为案例研究
本文研究隐式偏差和隐式正则化对随机凸优化中随机梯度下降的影响,提供了一种简单构造来排除控制 SGD 泛化能力的分布独立的隐式正则化器的存在,并且证明了分布依赖的一般类隐式正则化器不能解释泛化的学习问题,说明了仅仅通过隐式正则化的特性来全面解 - 关于隐式正则化:Morse 函数与矩阵因式分解的应用
本文重新回顾了使用动态系统和 Morse 函数的不变子空间来解释深度模型(如神经网络)泛化能力的隐式正则化,并提出了一种新的隐式正则化标准以及研究它的通用蓝图,并应用这些技术来解决隐式正则化理论在矩阵分解中的一个猜想。
- 从连续视角看机器学习
我们提出了机器学习的连续形式,作为经典数值分析中变分计算与微分积分方程问题的解决方法,演示了如何通过离散化来恢复传统的机器学习模型和算法,同时展示了从这种连续形式自然产生的新模型和新算法。并讨论了如何在这个框架下研究泛化误差和隐式正则化问题 - 小批量 Wasserstein 学习:渐近和梯度特性
本文对最优传输距离的使用进行了探索,指出在大规模数据集上计算这些距离的方法是通过平均几个较小的最优传输问题的结果。我们论证了这种方法等效于原问题的隐式正则化,并具有无偏估计,梯度和期望值周围的集中度约束等吸引人的属性。同时我们还开展了梯度流 - 最优稀疏恢复的隐式正则化
本文探讨了应用于无惩罚最小二乘回归问题的梯度下降方法的隐式正则化方案,旨在从线性测量的过少的系统中重构出一个稀疏信号,考虑到受限等距假设,我们展示了有一定参数下,预设好的初始化、步长和停机时间能给出一个在统计和计算上都是优的算法,可以在费用 - ICLR梯度下降最大化同质神经网络的边界
研究了梯度下降算法在同质神经网络中的隐式正则化,重点研究了 optimizing the logistic loss or cross-entropy loss of any homogeneous model,探讨了规范化边缘的平滑版本, - 超参数非线性模型的随机镜像下降:收敛性,隐式正则化和泛化
本研究主要探讨过参数模型中采用 stochastic mirror descent 方法,在足够小的步长下,通过初始化接近全局最小值,其可以收敛和迭代到一种接近 Bregman 散度且具有更好泛化性能的解决方案,并探究该方法中不同的隐式正则 - 深度矩阵分解中的隐式正则化
本篇论文探讨了深度矩阵分解在矩阵补全和传感中的梯度下降隐式正则化对低秩解的影响,并发现添加深度会增强对低秩解的倾向,结果表明标准正则化的数学符号语言可能不足以完全涵盖梯度下降隐式正则化的机制。
- 线性神经网络中离散梯度动态的隐式正则化
本文研究了过参数化模型的离散梯度动态,并证明在使用适当超参数和初始化条件时,该动态可以学习降低秩的回归问题的解。
- 由 Ornstein-Uhlenbeck 过程驱动的深度神经网络的隐式正则化
研究采用随机梯度下降法训练的神经网络,通过对每一次迭代的训练标签进行独立噪声扰动,得到一个隐式正则化项,从而驱动网络向简单模型发展,并以矩阵感知、一维数据下的两层 ReLU 网络训练以及单数据点下的两层 sigmoid 激活网络训练等三个简 - 超参数化神经网络中的隐式正则化
本文通过引入梯度间隙偏差和梯度偏转等统计量,从理论和实证角度研究了内隐正则化在 ReLU 神经网络中的运作方式,结果表明通过随机初始化和随机梯度下降的方式有效地控制网络输出,使其在样本之间直线插值且负责度较低。
- 拟势函数作为随机梯度下降中损失函数的隐式正则化器
本研究利用变分推理和大偏差理论对随机梯度下降进行分析,提出了一个新的潜在函数模型,并探讨了噪声协方差结构对 SGD 的影响及其在隐式正则化中的作用。
- Just Interpolate: 核 “无岭” 回归能够泛化
使用不带显式正则化的核 “无岭” 回归及非线性核函数能完美拟合训练数据,本文分离了最小范数插值解的隐含正则化现象,这是由于输入数据的高维性、核函数的曲率以及数据的几何特性所导致的,并给出了一种数据相关的外样本误差的上界估计。
- NIPS学习深度同质模型中的算法正则化:层次自动平衡
证明了通过梯度下降(以及正步长)学习多层同质函数时,该算法的梯度流可以有效地强制不同层之间的平方范数差异保持不变,从而自动平衡所有层的大小,由此可以深入研究利用一阶算法来优化学习深度模型的基本方法。
- ICLR深度学习具有泛化能力是因为参数 - 函数映射倾向于简单函数
本文提供了深度神经网络的隐式正则化和广义性能的新解释,即表明深度神经网络的参数 - 函数映射应该具有指数偏向简单函数的现象,并且该内在的简单性依赖有助于解释为什么深度网络在现实世界的问题上具有良好的泛化性能。此外,本文提出了一种基于 PAC - 深度学习理论 III:解释非过拟合谜题
该研究探讨深度网络中的过拟合问题,发现梯度下降在非线性网络中的优化动力学与线性系统是等价的,同时也推广了梯度下降的两个性质到非线性网络中:隐式正则化以及最小范数解的渐近收敛,通过这些性质,可以提高模型的泛化能力,同时在分类任务中也能得到较好