误差反馈能够准确压缩预处理器

Jun, 2023

Error Feedback Can Accurately Compress Preconditioners

Ionut-Vlad Modoranu, Aleksei Kalinov, Eldar Kurtic, Dan Alistarh

TL;DR本文通过压缩梯度信息并将压缩误差反馈到未来迭代，提出了一种有效且易于实现的误差反馈技术，以在不影响收敛的情况下压缩预处理器，从而压缩全矩阵预处理器达两个数量级，实验结果表明，该方法在不影响准确度的情况下，可以有效地消除完全矩阵预处理的内存开销。

Abstract

Leveraging second-order information at the scale of deep networks is one of the main lines of approach for improving the performance of current optimizers for deep learning. Yet, existing approaches for accurate

deep learning optimizers preconditioning compression neural networks

发现论文，激发创造

高效完整矩阵自适应正则化

提出了一种实用的和有效的修改方式，以使全矩阵自适应正则化成为可能，并提供了非凸优化设置下自适应正则化的新理论分析，其核心算法 GGT 可以高效地计算低秩矩阵的平方根的倒数。在合成任务和标准深度学习基准测试中，初步实验结果表明其迭代收敛速度更快。

Jun, 2018

误差反馈修复 SignSGD 和其他梯度压缩方案

本文研究了基于符号的梯度压缩算法在大规模神经网络训练中的通信瓶颈问题，通过引入误差反馈机制提高了其收敛性和泛化性能，实验结果支持该算法在不额外假设的前提下具有与标准梯度下降算法相同的优越性能。

Jan, 2019

重新思考将梯度稀疏化作为总误差最小化问题

通过考虑整个训练过程的通信复杂度模型，使用硬阈值稀疏化进行梯度压缩可以比 Top-k 稀疏化更加高效地减少通信成本，特别是在大型深度神经网络上。

Aug, 2021

曲率信息的 SGD：通过通用李群预条件器

提出了一种新的方法，通过利用从海森矩阵向量积或参数和梯度的有限差分得到的曲率信息，类似于 BFGS 算法，加速随机梯度下降（SGD）。该方法涉及两个预条件器：一个矩阵无关的预条件器和一个低秩近似预条件器。我们使用一种对随机梯度噪声稳健且不需要线性搜索或阻尼的标准在线更新两个预条件器。为了保持相应的对称性或不变性，我们将预条件器约束为某些连通的李群。李群的等变性质简化了预条件器拟合过程，而其不变性质消除了通常在二阶优化器中需要的阻尼需求。因此，参数更新的学习率和预条件器拟合的步长在自然数值化，它们的默认值在大多数情况下都能很好地工作。我们的方法为提高 SGD 的收敛速度提供了一个有希望的方向，且计算开销较低。我们证明，在多个现代深度学习架构上，基于预条件的 SGD（PSGD）在视觉，自然语言处理和强化学习任务上优于 SoTA。本文提供了复现玩具和大规模实验的代码。

Feb, 2024

自然梯度的痕迹限制克罗内克 - 分解近似

本文提出了一种新的用于训练深度神经网络的二阶优化方法，叫做 TKFAC（Trace-restricted Kronecker-factored Approximate Curvature），其包括对 Fisher 信息矩阵的逼近和新的阻尼技术，在实验中表现优异。

Nov, 2020

神经不完全分解：学习共轭梯度法的预处理器

本文提出了一种基于自监管训练的图神经网络的数据驱动方法，用于加速科学计算和优化中遇到的大规模线性方程组求解，并且通过替换传统的手工制备预处理器，在收敛速度和计算效率方面实现了显著的提速。在我们的方法的核心是一种受稀疏矩阵理论启发的新型消息传递块。我们评估了我们提出的方法在科学计算中产生的合成和真实问题上，结果表明 NeuralIF 在各种指标上都实现了竞争性的性能。

May, 2023

在线学习中的无矩阵预处理

该论文提出一种在线凸优化算法，它具有介于使用最优预处理矩阵的算法和使用对角预处理矩阵的算法之间的遗憾，并且其遗憾界不会比对角预处理更差，在特定情况下甚至超过了具有全矩阵预处理的算法的遗憾界。该算法具有与在线梯度下降相同的时间和空间复杂度，并在论文中进行了合成数据和深度学习任务的基准测试。

May, 2019

核矩阵预处理

提出了一种用于核机器的预处理共轭梯度方法，利用预处理器优化了核矩阵的条件数，提高了算法收敛性能和可扩展性。在迭代次数的极限下，该方法精确度高于现有的近似算法，同时在相同的计算成本下，该方法较之前方法表现更好。

Feb, 2016

基于误差反馈的低秩梯度压缩技术在 MIMO 无线联邦学习中的应用

本文提出了一种用于增强多输入多输出（MIMO）无线系统中联邦学习（FL）通信效率的新方法。该方法基于交替最小二乘算法，利用低秩矩阵分解策略对本地梯度压缩进行过空中计算和误差反馈。所提出的协议被称为空中低秩压缩（Ota-LC），在保证相同推理性能的同时，相比现有基准方案具有更低的计算成本和通信开销。以 Cifar-10 数据集为例，当目标测试准确度为 80% 时，Ota-LC 相比基准方案至少可以降低 30% 的总通信开销，并将计算复杂度的阶数降低到梯度维度之和的倍数。

Jan, 2024

深度神经网络中条件前馈计算的低秩近似

本文研究深度神经网络中的可扩展性问题，提出了一种条件计算的方法，利用门控单元来确定节点何时进行计算，通过将权重矩阵分解成低秩逼近，能够有效地获得非线性激活前的正负号，在使用 ReLU 激活函数时，能够跳过一些节点的计算，加速稀疏神经网络的运行。实验结果显示，这种方法在 MNIST 和 SVHN 数据集上的性能稳健，对于条件计算过程引入的误差具有较好的鲁棒性。

Dec, 2013