面向深度神经网络的锐度感知量化
我们提出了一种新颖的零射频锐化感知量化(ZSAQ)框架,用于各种预训练语言模型的零射频量化,并理论证明了 SAM-SGA 优化算法的收敛速度以及该结果适用于其他非凸型极小 - 极大优化框架。通过在 11 个任务上进行大量实验证明,我们的方法在鉴别性和生成性预训练语言模型上都带来了一致且显著的性能提升,即最高可达 + 6.98 的平均得分,并且在实践中验证了我们的方法能够有效改善模型的泛化能力。
Oct, 2023
本文提出了一种几乎不需要额外计算成本的 Sharpness-Aware Training 方法,能减少由超参导致的广义误差,该方法通过 KL 散度实现了一个平滑收敛点,获得了与 SAM 类似的效果,使训练更加高效。
May, 2022
本研究提出了一种高效的针对过度参数化深度神经网络的 Sharpness Aware Minimizer 方法的修改版 Efficient Sharpness Aware Minimizer,其中包括两种新的训练策略 - 随机权重扰动和敏感于模型锐度的数据选择,以提高模型的训练效率,实验结果表明,该方法与基本优化器相比较,可以节省高达 60% 的计算资源,而且能够保持或提高测试准确性。
Oct, 2021
训练大型神经网络时,过拟合的挑战变得日益重要。为解决这一问题,Sharpness-Aware Minimization(SAM)作为一种有希望的训练方法出现,可在存在标签噪声的情况下提高神经网络的泛化性能。然而,对于非线性神经网络和分类任务领域,对 SAM 工作原理的深入理解仍然较为缺乏。本文通过演示为什么 SAM 对某种数据模型和两层卷积 ReLU 网络优于随机梯度下降(SGD),填补了这一空白。我们所研究问题的损失函数景观是非光滑的,因此基于 Hessian 信息的当前解释对于 SAM 成功的原因是不充分的。我们的结果解释了 SAM 的好处,特别是它能防止在早期阶段噪声学习,从而促进更有效的特征学习。在合成数据和真实数据上的实验证实了我们的理论。
Oct, 2023
本文提出了一种自适应尖锐度感知(SAMSON)的方法,通过优化损失值和损失尖锐度来提高神经网络模型对噪音硬件的稳健性,相比现有的尖锐度感知训练方法在无噪声和有噪声的环境下均表现出更好的模型泛化性能和鲁棒性。
Nov, 2022
本文介绍了 Sparse SAM 的有效训练方案,通过使用二进制掩码获取稀疏掩码,基于 Fisher 信息和动态稀疏训练提供了两种解决方案,理论上证明了 Sparse SAM 可以以相同的速度收敛,既有潜力加速训练,又可以有效平滑损失地形。
Oct, 2022
本文引入了一种新颖、有效的程序,即 Sharpness-Aware Minimization (SAM),通过在局部参数空间中同时最小化损失值和损失锐度,以提高模型泛化能力。实验结果表明,SAM 在多个数据集和模型上都取得了最新的最好结果,同时也提供了与最先进的噪声标记学习特定过程相当的抗噪性。
Oct, 2020
Sharpness-Aware Minimization (SAM) relies on worst-case weight perturbations to improve generalization; we provide a more complete theoretical framework for SAM's success, analyze its implicit bias on diagonal linear networks and empirically on fine-tuning non-linear networks, and provide convergence results for non-convex objectives when used with stochastic gradients.
Jun, 2022
通过提出稳定的 SAM 策略,我们解决了使用 SAM 训练神经网络的不稳定性问题,并通过理论分析发现稳定 SAM 在扩展学习率范围内能够比 SAM 表现更好,并在多个数据集和任务上验证了其改进的性能。
Jan, 2024
提高深度神经网络(DNN)加速器的硬件效率,例如采用量化和稀疏增强技术,显示了巨大的潜力。然而,在非理想的现实环境(例如存在硬件故障)中,它们的推理准确性尚未被系统地分析。本文研究了存储器故障对激活稀疏量化 DNN(AS QDNN)的影响,发现激活稀疏度较高会增加故障的脆弱性,导致 AS QDNN 的准确性比标准 QDNN 低达 11.13%。基于这一观察,我们采用了锐度感知量化(SAQ)训练以缓解存储器故障的影响,结果表明使用 SAQ 训练的 AS QDNN 和标准 QDNN 相比于传统训练方法,推理准确性分别提高了 19.50% 和 15.82%。此外,我们还表明 SAQ 训练的 AS QDNN 在故障环境中比传统训练方法的标准 QDNN 具有更高的准确性。因此,锐度感知训练可以在实现稀疏相关的延迟优势的同时保持容错性。
Jun, 2024