- SGD 在高维度中的梯度剪裁动力学
通过研究剪裁在流式随机梯度下降中的应用,发现剪裁在某些噪声环境中可以提供性能优势,并讨论了高维剪裁与神经网络训练之间的联系。
- 在重尾噪声存在时,梯度剪裁改进了 AdaGrad
本文通过证明,在处理偏重尾噪声时,AdaGrad 和 Adam 具有很差的高概率收敛性,提出了一种名为 Clip-RAdaGradD(Clipped Reweighted AdaGrad with Delay)的新版本 AdaGrad,并证 - 用 Per-core Clipping 高效训练能记忆较少且性能更好的 ASR 模型
渐变剪切在训练大规模自动语音识别(ASR)模型中起着至关重要的作用。本研究系统地调查了一种特定细粒度的渐变剪切方法,即每个核心剪切(PCC),对于训练各种 ASR 模型的影响。我们经验证明,PCC 可以有效地减轻 ASR 模型中的非预期记忆 - 一种非凸优化的随机拟牛顿方法
本文提出了一种快速的随机拟牛顿方法,针对平滑性不均匀的情况,通过梯度剪切和方差减小,实现了最优的 O (ε^(-3)) 样本复杂度,并通过简单的超参数调节实现了收敛加速,数值实验证明了该算法优于现有方法。
- PCDP-SGD: 通过预先投影提高差分隐私 SGD 的收敛性
在本文中,我们提出了一个通用的框架 PCDP-SGD,通过在梯度剪裁之前进行投影操作,旨在压缩冗余的梯度范数并保留更关键的顶部梯度分量。此外,我们将 PCDP-SGD 扩展为差分隐私联邦学习(DPFL)的基本组成部分,用于减轻数据异构挑战并 - 无剪切偏差的差分隐私 SGD:一种误差反馈方法
我们提出了一种新的误差反馈(EF)DP 算法作为 DPSGD-GC 的替代方案,它不仅提供了逐渐减小的效用界限而且不引入恒定的剪裁偏差,更重要的是,它允许独立于问题进行剪裁阈值的任意选择。
- 拜占庭健壮性和部分参与可以同时实现:只需裁剪梯度差异
提出了一种具有客户端抽样和对拜占庭工作者的可证明容错性的分布式方法。通过梯度剪裁控制递归方差减少中的随机梯度差异来限制拜占庭工作者可能造成的潜在危害,并且结合通信压缩来提高通信效率。在相当一般的假设下,证明了该方法的收敛速度与现有的理论结果 - 带权重剪枝的 DP-SGD
通过利用当前全局模型及其在搜索域中的位置的公共信息,我们提出了一种新方法来缓解传统梯度剪裁带来的偏差,从而实现了改进的梯度界限,进一步确定了灵敏度并调整了噪声水平,提供更好的差异性隐私保证,并进行了实证评估。
- 大规模 ASR 模型中的非预期记忆及其缓解方法
通过简化的审计方法,我们展示了最先进的自动语音识别模型中的记忆化现象,并且证明通过梯度剪裁可以减轻记忆化对速度增强训练样本的影响。
- 具有重尾噪声的复合和分布式随机最小化和变分不等式的高概率收敛
基于梯度剪裁的随机一阶优化方法在噪声假设温和的情况下引起了很大关注。我们提出了新的用于复合和分布式优化的随机方法,并证明了这些方法的紧密高概率收敛结果(包括几乎最优的结果)。同时,我们还针对复合和分布式变分不等式开发了新的方法,并分析了这些 - 带剪辑的非凸随机优化的高概率分析
使用梯度裁剪技术在随机优化算法中研究梯度的截尾行为和其理论保证。
- 广义平滑下的凸优化和非凸优化
本文介绍了一种新的非均匀光滑条件下的优化方法,并开发出一种简单但有效的分析技术来限制沿轨迹的梯度,从而获得更强的凸优化和非凸优化问题的结果。我们通过这种新方法证明了(随机)梯度下降和 Nesterov 加速梯度法在这种一般的光滑条件下的收敛 - Clip21: 梯度剪裁的误差反馈
本研究设计了 Clip21,这是第一个证明有效并实用的反馈机制,用于解决梯度剪切在分布式设置中引起的收敛性问题,并证明了我们的方法与在平滑非凸区域内的分布式梯度下降相同的收敛速度。
- 深度前馈网络的稳定和一致训练的证明框架
介绍了一种针对深度神经网络进行有监督训练、无监督训练以及强化学习的新算法,运用标准随机梯度下降法和梯度剪裁法对神经网络进行更新,提出了一种稳定输出层且范围明确的新型激活函数,得出结论:神经网络的更新值稳定,训练更加精确与流畅。
- 带梯度剪裁和通信压缩的分散非凸优化的收敛和隐私性
本文利用 PORTER 方法对去中心化的机器学习使用通信压缩和梯度裁剪进行了研究,并提供了更好的收敛保证,同时也突出了收敛速度、压缩比率、网络连通性和隐私之间的权衡。
- 随机梯度下降噪声的隐私泄露可能会收敛,即使对于非凸损失函数
本文研究了 DP-SGD 算法在限制梯度影响的条件下,对于具有省略凸性和平滑性假设的损失函数,随着迭代次数的增加,其隐私泄露的收敛速度是指数级的。同时,文章还分析了非正则 DP-SGD 的隐私损失。
- 重温梯度剪裁:随机偏差和紧密收敛保证
本文研究了梯度裁剪在随机梯度下降中的应用,给出了裁剪阈值对收敛结果的影响和其上下界,进一步阐述了裁剪机制的缺陷及解决方案。
- ICLREPISODE: 针对异构数据的联邦学习的周期重新采样校正的情节梯度裁剪
EPISODE 是第一个旨在解决在非凸和放松平滑性环境中具有异构数据的 FL 问题的算法,其中关键技术是对每个客户端重新采样梯度并使用全局平均梯度确定是否在整个回合中应用梯度剪辑,并为每个客户端构建局部梯度修正。该算法不仅提供了统一框架,还 - 神经网络的通用循环训练
本研究介绍了以简单的训练开始和结束,在中间轮次进行困难训练的 “通用循环训练” 的原则,并提出了几种训练神经网络的表现形式,包括基于算法、基于数据和基于模型的例子。此外,还介绍了多种新技术和建议更改典型的训练方法,总结出通用循环训练的概念, - 非凸随机优化中重尾的高概率界限
本研究讨论了使用第一阶梯度算法进行的非凸随机优化问题,其中梯度估计可能具有重尾特征,结果表明梯度剪裁,动量和归一化梯度下降的组合可以在高概率下收敛于关键点,特别适用于光滑损失的已知最佳速率,适用于任意光滑度规范,并针对克服该领域二阶光滑损失