- ICMLMD 树:基于损失景观生长的模型诊断树
该论文提出了一种基于损失函数空间度量的模型诊断方法,通过预测故障源,解决了模型训练实验配置未知的情况下的分类问题,并在实践中验证了其优势。
- ICML景观线性模式连接
通过提供 “山坡和山脊” 视角以及理论分析障碍高度,我们致力于为线性模态连接的发生提供一个工作模型,了解在神经网络的非凸损失景观中出现线性模态连接的核心原因。
- 透过模式插值理解扩散模型中的幻觉
由于扩散模型解码器的不连续损失面导致的中间插值现象,扩散模型在训练集中平滑地插值产生了完全不属于原始训练分布支持范围的样本(即幻觉),我们通过对高斯数据和各种形状的人工数据进行实验,展示了这种幻觉与形状组合生成之间的关联,并提出了一种简单的 - 半梯度 Q-learning 中的隐性偏差探究:通过福克 - 普朗克方程可视化有效的损失景观
该论文介绍了在二维参数空间中构建和可视化有效损失景观,揭示了全局最小值如何转化为有效损失景观中的鞍点,以及半梯度方法的隐含偏差。此外,论文还证明了高维参数空间和神经网络设置下,从损失景观中的全局最小值产生的鞍点仍存在于有效损失景观中。该论文 - 大型语言模型调优中重新思考灾难性遗忘
本文首次揭示了大型语言模型(LLMs)的模型损失面与遗忘程度之间的直接联系,并引入了锐度感知最小化方法来减轻 Catastrophic Forgetting,通过使损失面变得平坦。实验证明该方法在缓解 Catastrophic Forget - 自监督视觉 Transformer 的损失可视化
利用损失景观的方法调查了 Masked autoencoder 在自监督的 ViT 训练中对更好的泛化能力和梯度修正的作用。
- 通过最优偏移改善深度神经网络的泛化能力
我们提出了一种名为 “最优偏移” 的新方法,通过改变神经网络的参数从一个尖锐的极小值到一个更平坦的极小值,同时保持相同的训练损失值,以此来提高神经网络的泛化能力。我们的方法基于以下观察:当固定神经网络的输入和输出时,网络内的矩阵乘法可以被看 - 深度神经网络的损失景观的可视化、重新思考和挖掘
对深度神经网络的损失景观进行研究,系统地将 1D 曲线从简单到复杂逐渐分类,并通过挖掘算法获得相应的扰动方向,最终提出基于 Hessian 矩阵的理论洞察来解释观察到的若干有趣现象。
- 深度神经网络的非对称谷探索与利用
探索深度神经网络(DNNs)的损失景观可以揭示其内在原理。我们的研究系统地探索了影响 DNNs 山谷对称性的因素,包括数据集、网络架构、初始化、超参数以及噪声的大小和方向。我们的主要观察表明,噪声与收敛点之间的符号一致性是山谷对称性的关键指 - 分类稳健性与解释稳健性真的高度相关吗?通过输入损失函数的分析
该研究论文探讨了深度学习稳健性的关键领域,挑战了图像分类系统中分类稳健性和解释稳健性之间存在固有相关性的传统观念。通过一种利用聚类的新颖评估方法,有效评估解释稳健性,我们证明增强解释稳健性并不一定会使输入损失函数的梯度相对于解释损失变得更平 - 损失景观的灵敏度分析
利用梯度进行敏感性分析,通过自动微分以及包含激活函数的损失函数探索损失空间中影响因变量的独立变量,利用二阶梯度可视化类似于 Spearman 相关系数结果的信息,同时一阶和三阶导数也揭示了独立变量对因变量的影响程度。
- 不同初始化的文本转换模型的合并
我们研究了一种用于合并 Transformer 架构中的模型的技术,并通过比较合并的模型与模型平均化方法在多个任务上的结果,发现合并模型的损失较低,表明这些模型的最小值比以前认为的更为模糊和相互连接,为未来关于合并独立训练的 Transfo - ICLR超越均匀缩放:探索神经结构中的深度异质性
基于第二阶损失景观信息的自动缩放方法,以灵活适应视觉变换器中的跳跃连接;在 DeiT-S 与 ImageNet100 上广泛评估,相较于传统缩放,准确率提高 2.5%,参数效率提高 10%;缩放网络在从头训练小规模数据集时表现出卓越性能,是 - 为什么敏感函数对 Transformer 较难?
在变压器架构下,输入空间敏感性限制了损失函数的变化趋势,使得变压器在一般化方面表现出低敏感性和低程度的偏好,并且在计算简单形式语言(如 PARITY)和长度一般化方面存在困难。
- 浅层 ReLU-like 神经网络的损失景观:静态点、鞍点逃逸和网络嵌入
我们研究了使用经验平方误差训练的一层隐藏层神经网络的损失景观。我们提出适用于非可微和可微情况的站点条件,并显示如果静止点不包含 “逃逸神经元”,则它必须是局部最小值。此外,我们的研究还能够全面讨论网络嵌入如何重塑静止点。
- 数据引导的多尺度损失和高效多速率梯度下降方案
这篇论文研究了多尺度数据对机器学习算法的影响,尤其是在深度学习的背景下。它揭示了损失景观中的多尺度结构,包括从数据中继承的梯度和海森矩阵。相应地,它引入了一种新颖的梯度下降方法,灵感来自科学计算中使用的多尺度算法。这种方法试图超越经验性的学 - 训练 PINNs 中的挑战:损失空间的视角
本论文探讨了训练物理信息神经网络(PINNs)中的挑战,强调了损失函数在训练过程中的作用,并研究了由残差项中的微分算子引起的病态条件所带来的最小化 PINN 损失函数的困难。我们比较了梯度下降优化器 Adam、L-BFGS 以及它们的组合 - SMOOTHIE:软件分析的超参数优化理论
该研究论文介绍了一个名为 SMOOTHIE 的新型超参数优化器,通过考虑‘平滑性’指导其优化过程,并在多个软件分析任务中进行了实验验证,结果表明 SMOOTHIE 在性能上优于现有的优化器,并且运行速度比之前的最新技术快 300%。
- AAAICR-SAM:曲率规则的锐度感知最小化
通过最小化最坏情况损失,使用单步梯度上升作为近似方法,我们提出了曲率正则化 SAM(CR-SAM),通过引入归一化的 Hessian 迹来准确测量训练和测试集上的损失曲线的曲率。我们的实证评估结果显示,CR-SAM 在各种数据集上持续提高了 - 精调预训练大型语言模型中的稀疏是足够的
通过研究下游领域的损失函数从随机初始化到预训练初始化的变换,本文揭示了参数梯度稀疏性的特性,提出了基于梯度的稀疏微调算法 Sparse Increment Fine-Tuning (SIFT),并在多个任务上验证了其有效性。