- ICLR组稀疏的隐式正则化
通过一种新的神经再参数化方法,即对角线分组线性神经网络,研究了梯度下降对结构稀疏性的隐式正则化。与现有方法相比,我们的方法证明了最小化正则化和模拟下降无法模拟我们的训练轨迹,并在一般噪声设置中分析了相应的回归问题的梯度动态和最小极小误差率。
- 凸化 Transformer:改进 Transformer 网络的优化和理解
论文研究了 Transformer 网络模型训练的问题,并提出了一种新的凸分析方法来解决这个问题,进而提供了这些网络模型的理论解释以及性能优化方法。
- 矩阵完成的自适应和隐式正则化
本文提出了一种自适应的隐式低秩正则化方法,通过从训练数据中动态捕捉低秩先验来解决固定正则化的局限性,并通过实验验证表明其在各个数据集上都有优秀的表现。
- ICML深度张量分解中的多项式增长隐式正则化
研究深度学习在张量因式分解中的隐式正则化效应,通过数值实验证明了这种隐式正则化可促进获得更准确的估计和更好的收敛特性。
- CVPR通过梯度反变一致性实现近似微分同胚
该研究提出了一种利用神经网络实现医学图像配准的方法,通过反向一致性惩罚促进转换规则性,并使用 'GradICON' 作为正则化器,从而在多种真实医学图像数据集上实现了最先进的配准精度。
- ICML深度学习中稳定性边缘处的梯度下降理解
研究了神经网络训练中的难点问题 Edge of Stability,发现了一种新的内隐正则化机制,通过对最小化损失面的低维流动,提出对比以往对无穷小更新或梯度噪声的依赖。
- 理解和缓解图对比学习中的维度崩溃:一种非最大值消除方法
该论文提出了一种非最大值移除图对比学习方法,用于解决图对比学习中维度塌陷的问题,并在多种基准数据集上进行了全面的实验证明了该方法的有效性。
- 通过过度参数化实现标签噪音下的稳健训练
为解决对于干扰数据的过度拟合而影响泛化效果,我们提出了一种基于稀疏过参数化和隐式正则化的优化方案,通过对标签噪声进行建模和分离,实现了对于训练数据中的噪声数据清洗,最终获得了在多个真实数据集上较先进的测试结果,同时为优化过度参数化模型开辟了 - ICML分层张量分解和深度卷积神经网络中的隐式正则化
本文从动态系统的角度对深度学习中隐藏的正则化进行了理论分析,并研究了等效于一些深度卷积神经网络的分层张量因式分解模型中的隐藏正则化。最终证明了该模型会自动进行低阶张量秩的隐藏正则化,实现与卷积网络相应的局部性隐式正则化。我们基于该理论设计了 - DR3:基于价值的深度强化学习需要明确的正则化
本研究探讨了隐式正则化在深度增强学习中的应用。我们的分析表明,隐式正则化可能会导致总体泛化性能下降和特征表示的变形。这篇论文通过提出一种基于 DR3 的新正则化方法来解决这个隐式正则化问题,并在 Atari 2600 游戏、D4RL 领域和 - 演员 - 评论家算法对高熵最优策略存在隐式偏差
通过交互式学习使用线性 softmax 策略和线性 MDP 更新的最简单的 actor-critic 方法,通过高熵优化实现了无需正则化或探索即可找到最优政策,从而消除了 MDP 中均匀混合假设的限制。
- 线性等变网络的隐性偏差
本文研究群等变卷积神经网络,在训练时隐式地通过具体的架构对模型进行正则化处理来实现其显式的对称性偏置,从而实现模型的推广。同时,文中还提出了傅里叶空间隐式正则化模型的解释,并通过实验证明了该模型的有效性。
- ICLR随机训练对于泛化不是必需的
本文通过比较全批量训练和 SGD 在现代结构下在 CIFAR-10 数据集上的表现,证明了 SGD 的隐式正则化可以完全被显式正则化替代,并指出全批量训练受限于优化性质和 ML 社区花费在小批量训练上的大量时间和精力。
- AAAI分布式和联邦学习中的隐式梯度对齐
本文提出了一个名为 GradAlign 的优化方法,该方法可通过数据异构性的隐式正则化来改善分布式学习中客户端梯度不对齐的问题,从而提升测试精度,并在不同的分布式和联邦学习设置中进行了实验验证。
- 过度参数张量分解中通缩过程的理解
本文研究了过度参数化张量分解问题上的梯度流训练动态。通过证明,在正交可分解的张量情况下,略微修改的梯度流会遵循张量缩减过程,并恢复所有张量分量。我们的证明表明,对于正交张量,梯度流动态的工作方式类似于矩阵情况下的贪心低秩学习,这是了解超参数 - ICML正负动量:利用随机梯度噪声来改善泛化
提出了一种 Positive-Negative Momentum (PNM) 方法来模拟随机梯度噪声 (SGN) 并代替传统的动量方法,通过将两个近似独立的动量项的差异调整来显式控制 SGN 的大小,理论上证明了 PNM 相比于 SGD 的 - 深度学习:统计观点
探讨了深度学习中简单梯度方法在寻找接近最优解的非凸优化问题上的出人意料的成功,以及其之所以具有超预期的表现,推断是因为过度参数化可以让梯度方法寻找插值解,这些方法隐含地施加正则化,并且过度参数化导致了良性过拟合等基本原理构成了这个现象,同时 - ICML张量分解中的隐式正则化
采用动力学系统视角和贪心低秩张量搜索方法,我们得出了张量秩作为衡量复杂度和深度神经网络隐式正则化的方法,进而解释了深度学习中的隐式正则化和现实世界数据的性质对泛化的影响。
- ICLR随机梯度下降中隐式正则化的起源
本文研究随机梯度下降(SGD)的学习率对准确性的影响,证明当学习率适当大时,SGD 的迭代路径离梯度下降路径更近,这种现象可通过引入一个隐式正则化项进行解释,并通过实验证明在适当的学习率下包含隐式正则化项可以提高测试准确性。
- ICLR解决梯度下降隐式偏差的矩阵分解方法:贪婪的低秩学习
通过深度为 2 的矩阵分解及理论和实证证据,我们证明了梯度流(用无穷小初始化)等价于一个简单的启发式秩量化算法,同时对深度大于等于 3 的情况进行了扩展,并证明了深度的优势在于对初始化幅度的弱依赖性,因此这种秩量化更可能在实践中起作用。