重尾 SGD 训练的超参数神经网络的隐式可压缩性
本研究揭示了训练算法的动态特性在实现神经网络压缩方案上起着关键作用,通过将压缩性与随机梯度下降的近期性质联系起来,本文证明了当神经网络遵循一定条件时,网络参数具有稀疏性,并且压缩误差可以任意减小,同时可证明良好的压缩性可降低泛化误差,该理论得到了各种神经网络的数值实验验证。
Jun, 2021
通过对连续扩散逼近的随机梯度下降进行分析,我们发现它在渐近意义下表现出重尾分布,并给出了尾指数的上下界。我们通过数值实验验证了这些界限,并显示它们通常是 SGD 迭代的经验尾指数的近似。此外,这些界限的显式形式使我们能够量化优化参数与尾指数之间的相互作用,这对于研究神经网络的广义性能和 SGD 避免次优局部极小值的能力的关联问题具有重要意义。
Feb, 2024
我们提出了一种专门针对重尾梯度进行压缩的新方案,该方案将梯度截断和量化有效地结合在一起,并在通信受限的分布式随机梯度下降框架中进行了巧妙实现,我们通过理论分析和与其他基准的比较实验证明了该方法在管理分布式学习环境中的重尾梯度方面的有效性。
Feb, 2024
本文研究了过参数化的深层网络使用随机梯度下降法(SGD)能够良好推广的能力,提出了一种 PAC-Bayesian 框架,利用这种能力为原始网络提供界限,同时不会受到权重矩阵谱范数乘积的影响。
May, 2019
理解现代机器学习算法的泛化能力作为研究主题在过去几十年中备受关注。最近,随机梯度下降(SGD)的学习动态与重尾动态有关,这已成功应用于利用这些动态的分形属性的泛化理论中。然而,所推导出的界限依赖于超出计算能力的互信息(解耦)项。在本研究中,我们证明了一类重尾动态轨迹上的泛化界限,而无需这些互信息项。相反,我们通过比较基于经验风险的学习动态(依赖于群体风险)与基于预期风险的动态引入了一个几何解耦项。我们进一步利用重尾和分形文献中的技术对该几何项进行了上界限定,使其完全可计算。此外,为了收紧界限,我们提出了一个基于扰动动态的 PAC-Bayesian 设置,在该设置中,相同的几何项起着关键的作用,并且仍然可以使用上述描述的技术进行界定。
Dec, 2023
本文研究比较了两种标准的数据压缩方法:分布式量化 SGD 和分布式 SGD 反馈错误的压缩机在非独立同分布数据集的训练效果,结果表明,后者比前者更适合非独立同分布数据,但两种方法都会因为数据分布的不均匀而变慢。文中还提出一种对于强凸问题有效的方法和适用于线性压缩器的更通用的方法。
Sep, 2020
我们提出了一种在参数服务器框架中实现梯度压缩的分布式随机梯度下降(SGD)的新算法。我们的梯度压缩技术名为压平一位随机梯度下降(FO-SGD),它依赖于两个简单的算法思想:(i)利用抖动技术的一位量化过程,和(ii)在量化之前使用随机快速 Walsh-Hadamard 变换来压平随机梯度。因此,在该方案中,真实梯度的近似是有偏的,但它避免了常见的算法问题,如在一位压缩制度下方差激增、在梯度稀疏情况下性能恶化和对随机梯度分布的限制性假设。实际上,我们证明了在温和条件下类似于 SGD 的收敛性保证。该压缩技术可在工作机 - 服务器通信的双向上使用,因此支持具有完整通信压缩的分布式优化。
May, 2024
通过研究一类广泛的非线性随机梯度下降方法在高概率下的收敛界限,我们证明了对于具有 Lipschitz 连续梯度的强凸损失函数,即使在噪声具有重尾分布的情况下,也能实现失败概率的对数依赖性,这对于任何具有有界(逐分量或联合)输出的非线性性质(如剪切、归一化和量化)都是成立的,与以往对于具有重尾噪声的研究相比,我们的研究结果在噪声的矩阶限制上得以松弛。
Oct, 2023
通过研究过度参数化的深度网络的学习动力学,我们揭示了各种体系结构的权重矩阵展现出低维结构,我们利用这些洞见通过减小中间层的宽度来压缩深度线性网络,实验证明这种压缩技术能够加速训练过程超过两倍,而不牺牲模型质量。
Nov, 2023