- 连接性塑造矩阵完备性模型的隐式正则化
矩阵分解模型在理解超参数模型的隐含偏差方面,作为一个重要的测试平台已被广泛研究。本文系统地研究了矩阵分解模型在解决矩阵补全问题时的隐含正则化,通过实验证明观测数据的连接性在隐含偏差中起着关键作用,其随着观察次数的增加由低核范数转变为低秩解。 - SAM 对标签噪声具有鲁棒性的原因
Sharpness-Aware Minimization 对标签噪声鲁棒性的理解需要考虑到对误差曲面中 “较平坦” 区域最小值的鲁棒性以及提前停止对峰值性能的影响。通过对 logit 项和网络 Jacobian 的改变进行分解,我们推断深层 - 一层 Softmax 注意力梯度流的隐性正则化
研究一层 softmax 注意模型上指数损失的梯度流问题,通过分离地训练键值矩阵,我们在数据可分性假设下证明梯度流在达到最小损失值时,进一步隐式地最小化键值矩阵乘积的核范数,这种隐式正则化可以用关注权重的支持向量机(SVM)问题来描述。与先 - 通过谱神经网络和非线性矩阵感知实现隐式正则化
通过对带有非线性激活函数的神经网络在矩阵感知问题中的隐性正则化现象的研究,我们引入了一种名为 “光谱神经网络(SNN)” 的网络架构,该架构在矩阵学习问题上具有更好的可解释性,通过数学保证和实证研究验证了其有效性。我们相信 SNN 架构在广 - 深度 ReLU 神经网络中的几何引起的隐式正则化
神经网络的隐式正则化现象与参数的几何特征密切相关,优化过程中更倾向于具有低批次功能维度的参数。网络的输入也对批次功能维度产生影响,输入的变化会改变批次功能维度的上限,称为可计算全功能维度,其估计收敛迅速且保持接近参数个数,可以与局部可辨识性 - ICLR使用损失面几何精确刻画 SGD 的稳定性
我们深入探讨了随机梯度下降(SGD)的线性稳定性与锐利度之间的关系,并介绍了一种损失海森矩阵的一致性度量,用于判断 SGD 在最优点处的线性不稳定性。
- 关于无替换的 SGD 轨迹
通过分析基于随机梯度下降(SGD)的隐式正则化效应,本文研究了 SGD 无替换的情况,并发现其与添加了一种新型正则化器时的最优化过程等价,导致其在损失函数空间中与注入噪声的 GD 和采样独立同分布的 SGD 有着明显不同的轨迹,并在某些视觉 - 一个测试时间学习方法,通过卷积神经网络重新参数化地球物理反演问题
探讨了将卷积神经网络(CNN)的内在正则化应用于地球物理反演问题,结果表明 CNN 提供的内在正则化在直流电阻率反演中是有效的。
- 高斯相位恢复中的加速和隐式正则化
我们研究了高斯相位恢复问题中的加速优化方法,证明了带 Polyak 或 Nesterov 动量的梯度方法具有与梯度下降类似的隐式正则化能力。这种隐式正则化确保算法保持在一个良好的区域,其中成本函数在一般情况下是非凸的,但强凸和光滑的。这确保 - 张量优化中的算法正则化:基于矩阵感知的提升方法
通过梯度下降算法,我们探讨了诱导隐式正则化的作用,特别是在张量优化中的角色,尤其是在提升矩阵感知框架中。我们的发现强调了在与一阶方法相结合的矩阵感知中,张量参数化在实现全局最优性方面的重要性。
- 软升软降中的隐式正则化
通过提出一种更加鲁棒的程序 SoftAD,该程序通过减少边界点和限制异常值的影响,保留升降效果,实现与 SAM 和 Flooding 竞争性分类准确度,同时保持更小的损失泛化差距和模型规范化。
- 深度残差网络对神经常微分方程的隐式正则化
深度残差网络与神经常微分方程之间的离散化联系被建立,证明了在特定条件下网络收敛至全局最小值。
- Adam 隐式偏差研究
前人的研究表明,通过反向误差分析可以找到逼近梯度下降轨迹的常微分方程(ODEs)。本文证明 RMSProp 和 Adam 中存在类似的隐式正则化现象,取决于超参数和训练阶段,并与之前的研究有所不同。我们还进行了数值实验,并讨论了这些事实如何 - 无需正则化:一种高效且有效的不完整标签分布学习模型
标签分布学习 (Label Distribution Learning, LDL) 为样本分配软标签,但是当标签分布是不完整的 (Incomplete LDL, InLDL) 时,往往会导致性能退化。本文提出了一种合理的替代方法来解决这个问 - AI 中的隐式正则化遇到优化中的广义逼近难度 —— 关于对角线性网络的尖锐结果
该研究探讨深度学习和人工智能中神经网络结构和梯度优化方法所施加的隐式规则化作用,并通过研究 Diagonal Linear Networks (DLNs) 的梯度流在过参数化回归设置下的隐式规则化,解释了泛化难度的相变现象与基础追踪优化问题 - 利用图神经网络将随机动态系统学习作为隐式正则化
该论文提出了一种基于 Gumbel 图网络的随机模型,能够学习高维度时间序列,捕捉随机性和空间相关性,通过 Kuramoto 的模型比较了两个损失函数的 Hessian 矩阵,实验证明该模型在收敛性、稳健性和泛化性方面都具有优势。
- 镜像下降统一控制隐式正则化方法
本文使用镜像下降方法来解决深度神经网络优化算法中的隐含正则化问题。
- 批次稳定高维超参数线性回归中的最小范数风险
本文探讨了使用小批量的阈值学习算法进行分类的好处及最小二乘回归模型的上限风险,同时提出了一个基于特征重叠的小批量版本的最小二乘估计器,它比最小二乘估计器更稳定
- 深度网络中的显式和隐式正则化结合,实现高效学习
通过研究隐性正则化的梯度轨迹,借鉴深度线性网络梯度下降隐式正则化向低秩解的偏好性,并提出显式惩罚来模拟这种偏好,从而使单层网络可以达到深度线性网络相同的低秩逼近性能。
- 通过权重归一化实现强大的隐式正则化
本文研究了使用梯度下降与权重归一化进行训练的经过参数化的模型所具有的内在偏向性,并证明了权重归一化的方法可以在对角线性模型中具有稀疏解的内在偏向性。