- 高效内存网络训练的 4 位洗发水
提出了首个 4 位二阶优化器,示例为 4 位 Shampoo,其性能与 32 位相似;通过量化预处理器的特征向量矩阵,改善近似性和计算的效果,同时实现更高的存储效率。
- 大规模空间数据的迭代高斯过程近似方法
高斯过程是灵活的概率回归模型,但其计算规模受限;本文提出了全尺度近似方法,通过预测过程和协方差截尾相结合,减少计算开销,并引入新的预处理器和迭代方法以提高计算速度和预测方法准确度,在实验中证明它相较于现有方法在减少计算时间的同时,具备相同的 - 用于解决大规模问题的多级图神经网络预处理器
该研究介绍了一种新颖的预处理器,将 GNN 模型与多级域分解框架结合起来,以提高 Krylov 方法的效率,并产生一个混合求解器,可以以任何所需的精度收敛。
- 利用黎曼预条件的 LoRA 方法对基础模型进行微调
通过引入 Riemannian 预处理器,研究 Low Rank Adaptation(LoRA)微调过程的增强,实验结果表明,使用我们的预处理器可以显著提高 SGD 和 AdamW 的收敛性和稳定性。
- 利用镜面下降实现快速适应的多功能损失几何元学习
利用从相关任务中提取的任务不变的先验知识,元学习是一种原则性的框架,能够在数据记录有限时有效地学习新任务。使用预条件器来处理权重更新的收敛问题是元学习中的一个基本挑战。现有方法通过增强每个任务的训练过程来处理这个挑战。然而,简单的线性预条件 - 神经不完全分解:学习共轭梯度法的预处理器
本文提出了一种基于自监管训练的图神经网络的数据驱动方法,用于加速科学计算和优化中遇到的大规模线性方程组求解,并且通过替换传统的手工制备预处理器,在收敛速度和计算效率方面实现了显著的提速。在我们的方法的核心是一种受稀疏矩阵理论启发的新型消息传 - CVPR具有几何自适应预条件器的元学习
提出了 Geometry-Adaptive Preconditioned gradient descent (GAP) 算法,该算法利用 Riemannian metric 条件优化了 inner-loop 中的 preconditione - 预处理何时有助于或损害泛化能力?
此研究探讨一些最优化方法(包括用于神经网络的一阶梯度下降和二阶自然梯度下降)的隐式偏差如何影响其泛化性能,并提出了管理偏差方差的几种方法及在回归问题中的应用。
- 预处理随机梯度下降
本文提出了一种新的方法,通过估计一个预条件器来加速随机梯度下降算法的收敛速度,适用于凸性和非凸性优化,具有稳定梯度降噪的效果,并且经过了大规模问题的有效预条件估计验证,可以在无需调整的情况下,高效解决深度神经网络等复杂问题
- 非凸优化的平衡自适应学习率
该论文提出了一种基于 equilibration preconditioner 的新型自适应学习率方法:ESGD,与 RMSProp 相比收敛速度更快,在非凸问题上表现更好。
- 预处理的量子线性系统算法
本文提出了一种量子算法,通过量子态准备方法,简单辅助测量与量子前置条件算子,可解决任意问题规格的线性系统问题,并且能够在计算电磁散射截面等问题上大大提升求解效率。
- 在线条件下减少遗憾
本文分析并评估了一种采用逐坐标调整学习率的在线梯度下降算法,该算法可被视为带有对角先决条件的批量梯度下降的在线版本。实验结果表明,该算法在大规模机器学习问题中与最先进的算法相竞争,并带来更强的遗憾边界。