证明了通过梯度下降(以及正步长)学习多层同质函数时,该算法的梯度流可以有效地强制不同层之间的平方范数差异保持不变,从而自动平衡所有层的大小,由此可以深入研究利用一阶算法来优化学习深度模型的基本方法。
Jun, 2018
研究了梯度下降算法在同质神经网络中的隐式正则化,重点研究了 optimizing the logistic loss or cross-entropy loss of any homogeneous model,探讨了规范化边缘的平滑版本,形成了一个关于边缘最大化的优化问题,给出了算法的渐进性能, 并讨论了通过训练提高模型鲁棒性的潜在好处。
Jun, 2019
本文证明了通过梯度流学习方法得到的深层同质网络权重会趋向于收敛,并阐述了相应的研究内容,包括但不限于梯度流、分类损失、边缘最大化、显著图等方面。
Jun, 2020
本文引入了一种新颖、有效的程序,即Sharpness-Aware Minimization(SAM),通过在局部参数空间中同时最小化损失值和损失锐度,以提高模型泛化能力。实验结果表明,SAM在多个数据集和模型上都取得了最新的最好结果,同时也提供了与最先进的噪声标记学习特定过程相当的抗噪性。
Oct, 2020
通过对深度神经网络上梯度下降算法的实证研究发现,通过训练集中带宽分布曲线的曲线下面积来量化模型的泛化性能是更精确的方法,并且在加入批量规范化和权重衰减的情况下得到的训练点会收敛到同一个渐近边界,但其高容量特征并不一致。
Jul, 2021
研究探讨了梯度流在指数损失的条件下,拟半齐次神经网络的最大边际偏差,发现梯度流隐式地偏爱一部分参数,但可能会降低拟半齐次模型的鲁棒性,并分析了模型简化的机制,最后揭示了神经崩溃的普适性现象。
Oct, 2022
本研究探讨了注意力机制作为令牌分离机制的形式,并论证了运行梯度下降收敛于最大边缘解,同时提出了广泛的正则化路径分析。
Jun, 2023
通过研究线性可分数据分类中梯度算法的边界最大化偏差,提出一种名为渐进缩放梯度下降 (PRGD) 的新算法,在指数速率下最大化边界,相比于现有的多项式速率算法展现出明显区别,并验证了该理论发现在合成和实际数据上的有效性,同时在线性不可分数据集和深度神经网络上也显示了潜力提升泛化性能。
Nov, 2023
在这项研究中,我们分析了在不同环境下基于边界距离的泛化预测方法,并提出了一种融合基础数据流形的新的基于边界距离的度量,该度量在大多数情况下能更好地预测泛化。同时,我们对这种方法的实用性和局限性进行了分析,并发现这个度量与之前的工作的观点是吻合的。
May, 2024
本研究探讨了包括梯度下降、符号下降和坐标下降在内的最陡下降法的隐性偏差,填补了在深度均匀神经网络中这一领域的研究空白。我们提出了一种优化问题的广义平稳性概念,并证明这些算法在达到完美训练准确度后,几何边际会开始增加,进而逐步减少广义的Bregman散度,为理解深度学习中的算法偏差提供了新的视角和实证支持。
Oct, 2024