- 贝叶斯迁移学习中扁平后验至关重要
我们提出了一种基于概率神经网络和贝叶斯传递学习的锐度感知贝叶斯模型平均方法,通过寻找平的极小值来提高模型的泛化性能。
- 通过最优偏移改善深度神经网络的泛化能力
我们提出了一种名为 “最优偏移” 的新方法,通过改变神经网络的参数从一个尖锐的极小值到一个更平坦的极小值,同时保持相同的训练损失值,以此来提高神经网络的泛化能力。我们的方法基于以下观察:当固定神经网络的输入和输出时,网络内的矩阵乘法可以被看 - 回归问题的深度线性网络在隐含规范化方面趋向于平坦的最小值
神经网络的海森矩阵的最大特征值(或清晰度)是理解其优化动态的关键量。本文研究超定单变量回归的深度线性网络的清晰度。虽然最小化器的清晰度可以任意大,但不可以任意小。事实上,我们证明了最小化器清晰度的下界与深度成线性增长。然后我们研究了梯度流找 - 零样本跨语言迁移的泛化度量
在跨语言零样本设置中,探索了一组有效且可靠的度量,以计算语言模型的泛化能力相关信息,并提出了一种稳定的算法来可靠计算模型最优解的锋利度与泛化之间的相关性。
- 动态温度知识蒸馏
介绍了一种动态温度知识蒸馏(DTKD)方法,通过量化模型输出分布的平滑度来为教师和学生模型分别确定样本特定的温度,从而在知识传递过程中提高性能。在 CIFAR-100 和 ImageNet-2012 上的实验证明,DTKD 在目标类和非目标 - 锐度对盲视频质量评估的影响研究
视频质量评估是目前研究的重点领域之一,本研究通过使用卷积神经网络和深度神经网络等机器学习方法,探索了视频质量中的清晰度效应,并在现有视频质量数据库上进行了比较研究。
- ICLR通过锐度实现鲁棒的离分布泛化界限
我们研究了模型的锐度对其在领域转移中对数据变化的容忍度的影响,并提出基于锐度的领域外泛化界限,通过考虑鲁棒性,得出比非鲁棒性保证更紧的界限。
- 测量《深入理解》中的清晰度
神经网络中的感知现象被称为 grokking,本文提出了一种测量 grokking 的鲁棒技术,并基于拟合合适的函数形式进行研究,发现训练和验证准确性之间的突变趋势与绝对和相对锐度测量方法相似。
- ICLR使用损失面几何精确刻画 SGD 的稳定性
我们深入探讨了随机梯度下降(SGD)的线性稳定性与锐利度之间的关系,并介绍了一种损失海森矩阵的一致性度量,用于判断 SGD 在最优点处的线性不稳定性。
- 关于步长调整和渐进锐化之间的相互作用
最近的实证研究发现,深度学习模型的一个有趣特性是通过优化过程中最大特征值(海森矩阵的最大特征值)逐渐增加,直到在关键值处稳定,此时优化器在稳定边缘操作,给定固定步长;我们通过实证研究了使用步长调节器(如 Armijo 线搜索和 Polyak - 神经网络训练中的普适锐度动态:固定点分析,稳定边缘和混沌路径
通过对一种简化的 2 层线性网络模型的分析,我们揭示了梯度下降动力学中锐度现象背后的机制,包括锐度降低、渐进锐化和稳定边缘等,该模型的预测在实际场景中也具有普遍适用性。
- 将最小值尖锐度的讨论带入音频领域:针对声学场景分类的滤波器归一化评估
深度神经网络中损失最小值的锐度与泛化之间的相关性一直是一个长期讨论的话题。我们在 DCASE2020 挑战数据的音频场景分类任务中探索了这个方面,通过基于二维滤波器归一化可视化和衍生自的锐度度量进行分析。我们的探索性分析表明,锐度更高的最小 - 集合天气预报的置换不变神经网络后处理
本研究使用置换不变的神经网络对天气预报中使用的数值模拟预报集合进行统计后处理,以将原始集合转化为可靠的概率预测分布。通过对比传统方法和神经网络基准方法,我们评估了所获得的预测分布的校准性和锐度,并在针对地表温度和阵风预报的案例研究中展示了最 - 轨迹对齐:通过分岔理论理解稳定边缘现象
通过实证研究,证明最大特征值(也被称为锐度)沿着梯度下降轨迹的演化呈现出一种叫做稳定边缘现象(EoS)的现象,进一步证明了在合适的重新参数化下,不同的梯度下降轨迹会在一个特定的分叉图上对齐,从而建立了锐度逐步增加和 EoS 现象的理论分析。
- ICML差分隐私锐度感知训练
本文探讨了在进行差分隐私训练时,模型性能的降级问题,并提出了一种新的训练方法来缓解隐私和优化之间的权衡,实验证明该方法可以改善模型的性能。
- 梯度下降单调减小标量网络及其他解的梯度流锐度
应用梯度下降 (GD) 到神经网络时,损失函数几乎从不呈单调递减。我们找到了一种随着 GD 训练而单调递减的量:梯度流解 (GFS) 所达到的锐度。在理论上,我们分析了具有平方损失的标量神经网络,这可能是出现 EoS 现象最简单的设置。我们 - 锐度与位移感知的自监督学习
本文提出了 Sharpness & Shift-Aware 对比学习(SSA-CLR)方法,旨在从无标签数据中提取有意义的特征并应用于分类任务,通过显式建模、最小化特征提取器的锐度和数据分布的偏移差异,获得更好的分类表现和更鲁棒的特征。
- 具有弹奏反馈的安全优化中约束集的几何属性的影响
研究了带有 Bandit 反馈的安全优化问题,提出了一种针对此问题的算法,探讨了限制集合的几何特性对算法的后悔值的影响。引入了限制集合的尖锐度概念来识别可以保证这个算法后悔值的子线性下界的集合类,并给出了模拟结果支持这一下界,并证明了集合的 - ICMLASAM:适应性锐度感知极小化方法用于深度神经网络的尺度不变学习
本论文提出了自适应锐度的概念和相应的泛化界限,并提出了利用该泛化界限的新型学习方法 ASAM。在各种基准数据集上的实验证明,ASAM 显著提高了模型的泛化性能。
- 超越 Pinball Loss:分位数方法用于校准不确定性量化
本文提出了新的分位数方法,可以适用于任何回归模型,并允许在校准和锐度之间进行权衡,优化中心区间的校准度,并产生更准确的条件分位数。