- 预训练变换器的矩阵分解方法的实证研究
通过比较传统的低秩分解与最近引入的 Monarch 分解,我们在 Transformer 压缩技术方面提出了一个全面的分析,发现低秩分解在不同压缩比和六个文本分类任务中始终优于 Monarch 分解。
- 追踪有界 SDP 的非最优界限为 SDPLR + 提供了更快和可扩展的低秩 SDP 求解器
通过低秩分解和子优度界限优化,加速计算并节省存储成本,实现可扩展的半正定规划求解器。
- ACL基于特征的大型语言模型通过贝叶斯优化的低秩压缩
近年来,大型语言模型(LLMs)在自然语言处理方面取得了重要进展,但其规模的增大增加了计算负担,需要在效率和性能之间取得平衡。为了解决 LLMs 中低秩压缩的挑战,我们对大模型的低秩特性进行了实证研究,并提出了一种适用于 LLMs 的低秩压 - 自监督学习的结构冗余的低秩逼近
通过无限数量的标记样本,本研究探究重建型 SSL 的数据生成机制以揭示其有效性,提出了完美线性近似的充分必要条件,并通过低秩因子分解来度量冗余分量的近似质量,并结合过量风险分析,在线性回归和岭回归设置下验证了 SSL 与有监督学习的比较。
- 一种用于结构化支持向量机的近线性时间算法
本文提出了第一个解决具有低秩因子或低树宽度和少量线性约束的二次规划的近似线性时间算法,并暗示了具有低树宽度或低秩的支持向量机的近似线性时间算法。
- ICML适用于二元矩阵分解的快速(1+ε)近似算法
本研究提出了用于解决二元矩阵因式分解问题的高效近似算法,其中输入矩阵 A,矩阵的秩 k,一个精度参数 ε,并且其目标是将 A 近似为低秩因子 UV 的乘积。
- 矩阵分解的交替梯度下降收敛
本文研究了交替梯度下降算法应用于非对称矩阵分解目标函数的收敛性分析,证明了在充分迭代步数内,随机初始化下可以收敛到较优解,此结果可以为更广泛的非凸低秩矩阵分解问题的收敛分析提供帮助,并在实验中得到了验证。
- KDDMTC: 从部分和粗略观测中进行多分辨率张量补全
本文提出了一个高效的 Multi-resolution Tensor Completion Model (MTC) 来解决张量部分观测值的补全问题,该模型实现了张量模式特性的探索,并利用分辨率层次进行递归优化。在两个 COVID-19 相关 - k-tied 正态分布:贝叶斯神经网络中高斯均值场后验的紧凑参数化
通过对高斯均值场变分推理方法训练的深层贝叶斯神经网络的后验标准差进行矩阵低秩分解,我们可以将变分推理方法更紧凑地参数化,并提高其信噪比,从而加速其收敛速度。
- 大型语言模型的结构裁剪
该研究通过结构化剪枝方法,以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量,提高了大型语言模型的压缩效果和训练 / 推理速度,并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。
- 模型压缩的失真率研究:从理论到实践
本文研究深度神经网络模型压缩技术,提出了基于速率失真理论的压缩架构以及优化剪枝和量化技术,理论上证明了该架构对于一层 ReLU 神经网络最优,实验证明该方法在压缩 - 精度平衡上显著优于基线方法。
- 低秩矩阵优化的非凸几何
本文针对两个广泛使用的最小化问题:凸函数最小化问题和加上核范数的凸函数最小化问题,提出使用低秩分解和替代核范数的方法来加速求解问题,并证明其可以在全局范围内找到最优解。
- KDD行列式点过程的低秩因式分解用于推荐
本文介绍了一种使用低秩矩阵分解方法学习 DPP 核并实现商品推荐预测计算的新方法,比先前方法快近一个数量级,在多项真实数据集上得到了验证和比较结果。
- 大规模二元张量的零截断泊松张量分解
本文提出了一种可扩展的 Bayesian 模型,用于低秩分解具有二进制观测的大规模张量,并展示了该模型在计算可扩展性和利用二进制配对关系方面的优越性。
- 某些非凸矩阵问题的随机梯度下降全局收敛
本研究展示了低秩最小二乘问题上的随机梯度下降算法的步长设定方案,并证明了在广泛的采样条件下,该算法能够从一个随机起始点全局收敛。
- ICML用于核范数正则化的高效实用随机次梯度下降
本研究提出了一种基于亚梯度方法和快速增量 SVD 更新的矩阵优化模型,通过使用高效的并行线性代数操作,执行廉价迭代,保持低秩因子分解迭代,因此在矩阵完成设置中生成预测时非常有效。