- ALPS:面向大型语言模型的高度稀疏一次性修剪的改进优化
本文介绍了一种名为 ALPS 的基于优化的框架,用于通过操作拆分技术和预条件共轭梯度后处理步骤处理修剪问题,并结合向量化和 GPU 并行性以提高效率,在修剪目标和困惑度降低方面远远超过现有方法,特别是对于高度稀疏的模型。在 OPT-30B - ICML更稀疏,更好,更深,更强:通过精确正交初始化改进稀疏训练
提出了一种基于随机 Givens 旋转组合的精确正交初始化方案(Exact Orthogonal Initialization,EOI),该方法能够在静态稀疏训练中实现高效稀疏的 1000 层 MLP 和 CNN 网络的训练,突出了在静态稀 - 基于贝叶斯的联邦模型压缩技术提升通信与计算效率
本文研究了联邦学习中的贝叶斯模型压缩,构建稀疏模型既能实现通信效率又能实现计算效率。我们提出了一种分散的 Turbo 变分贝叶斯推理(D-Turbo-VBI)联邦学习框架,其中我们首先提出了一种层次稀疏先验,从而促进了权重矩阵中的聚类稀疏结 - RESSA:通过稀疏跨模态适应修复稀疏视觉语言模型
通过罕见模型剪枝和稀疏模型修复解决了资源受限场景下部署大规模 Vision-Language Models 的挑战,提出了一种稀疏跨模态适应方法 (RESSA),其中包括稀疏 LoRA 技术和交互模态微调,实现了显著的性能增强。
- 通过更稀疏的选择提高稀疏模型的效率
提出了 ool,一种新颖的 MoE 模型,通过利用小型专家和基于阈值的路由器,实现了对模型性能的提升,并在减少计算负载 50% 以上的同时,不牺牲性能。
- 基于顺序注意力的块稀疏化:可微剪枝结合组合优化
神经网络剪枝是一种重要的技术,能够构建大规模且可扩展、可解释和可推广模型。本文提出了一个结构化神经网络剪枝的方法,将可微剪枝指导组合优化算法选择最重要的稀疏参数集,从而在 ImageNet 和 Criteo 数据集上取得了大规模神经网络块级 - LCEN:一种用于非线性、可解释机器学习模型的新型特征选择算法
简介:本文提出了 LASSO-Clip-EN(LCEN)算法用于创建非线性的可解释机器学习模型。LCEN 在人工和实证数据集上进行了测试,比其他常用的架构创建出更准确、更稀疏的模型。LCEN 对噪声、多重共线性、数据稀缺和超参数方差等多种问 - EsaCL:高效学习稀疏模型
提出了一种用于高效学习稀疏模型的新方法,该方法能够自动修剪冗余参数而不降低模型的预测能力,并且避免了重新训练的需要。通过理论分析和设计的修剪和数据选择策略,实验结果表明该方法在减少存储和计算资源的同时,能够在连续学习任务上达到与现有方法相媲 - 平衡行动:在稀疏模型中约束不平等影响
通过直接解决剪枝带来的不一致影响,我们的研究提出了一种约束优化方法,通过在每个子组中限制密集模型和稀疏模型之间的准确度变化来确定剪枝模型是否达到可接受的不一致水平。实验证实了我们的技术在解决涉及大型模型和数百个受保护子组的问题上具有可靠的可 - SparseByteNN:一种基于细粒度分组稀疏性的新型移动推理加速框架
为了解决网络规模增大的挑战,研究者通过网络剪枝开发了稀疏模型。然而,在通用计算设备上实现显著加速的同时保持模型准确性仍然是一个未解决的问题。在本文中,我们提出了一种新颖的移动推理加速框架 SparseByteNN,通过利用细粒度的内核稀疏性 - 面向百万级依赖建模的长序列模型的统一视图
本文探讨了 Transformers 在长序列建模中的应用,并提出了一种处理百万级依赖关系的机器学习系统,其中的分布式多头注意力机制可提高 40 倍的计算效率。
- 稀疏循环利用:从密集检查点训练专家混合模型
提出了一种简单的方法,即利用密集型模型的检查点初始化稀疏模型,从而重复利用一次训练的成本,实现计算效率和准确性的平衡。
- EMNLP谁说大象不能奔跑:将大规模 MoE 模型引入云计算生产环境
通过量化权重和优化方法加速计算和减少模型大小,实现了高效的 Inference 模型,使得大规模混合专家 (Mixture of Experts) 变压器模型的部署成为可能。
- 学习 ASR 路径:一种稀疏多语言 ASR 模型
该论文提出了一种稀疏的多语言自动语音识别模型(ASR pathways),其激活特定于语言的子网络(“路径”),从而显式地学习每种语言的参数,具有更好的性能表现。
- Monarch: 高效准确训练的表达性结构矩阵
提出了一种硬件高效且表现力强的矩阵类别(Monarch),用于训练和微调稀疏或密集的神经网络,可在多个应用中实现加速训练的目的,并且具有可比拟的模型质量。
- 利用元梯度在初始化时寻找可训练权重的潜在剪枝
本文提出了一种名为 Prospect Pruning 的修剪方法,它通过 meta-gradients 来确定哪些参数需要被修剪,从而实现在同时保留神经网络准确性的前提下,消耗更少的计算资源并达到最先进的修剪表现。
- 神经模型训练的搜索空间
研究神经模型的训练过程中添加权重对搜索空间的影响,提出通过增加搜索空间来训练稀疏模型,以在多个深度学习任务中达到竞争性分数并提高硬件的利用率,鼓励超越当前使用的大型神经模型的研究。
- ACL成功将稳定化彩票假设应用于 Transformer 结构
研究表明,通过稀疏模型、神经网络和剪枝技术等手段,可以在交互式设备和时间关键型计算中快速实现预测,找到了一种新的剪枝技术,该技术不仅优于其他技术,而且对于高密度稀疏性水平的情况具有很大的优势。
- 使用进化策略和混合方法进行不可微监督学习
该研究论文展示了演化策略在学习大型监督模型的非可微参数方面的优越性,尤其是当模型具有百万维参数时,该方法的竞争能力非常出色。这种方法允许瘦模型从第一步开始就可以训练,非常适合于大算力场景。
- ACL稀疏序列到序列模型
提出了基于 alpha-entmax 变换的稀疏序列到序列模型,能产生稀疏的对齐和分配概率到一组合理的输出,这在形态学变化和机器翻译的实验中展现了比密集模型更好的表现。