- 精调预训练大型语言模型中的稀疏是足够的
通过研究下游领域的损失函数从随机初始化到预训练初始化的变换,本文揭示了参数梯度稀疏性的特性,提出了基于梯度的稀疏微调算法 Sparse Increment Fine-Tuning (SIFT),并在多个任务上验证了其有效性。
- SPT:使用稀疏化高效微调基于 Transformer 的语言模型
我们提出了 SPT 系统,通过引入稀疏性来高效地微调基于 Transformers 的模型,减少内存消耗,并且在各种模型配置上优于优化的基准模型,将峰值内存消耗降低了多达 50%,加速微调速度高达 2.2 倍。
- ELSA:无额外开销的稀疏网络部署中的部分权重冻结
ELSA 是一个实用的解决方案,可以在不同稀疏级别上轻松部署的深度网络。在预测时,只需根据预定义的掩码将权重清零,即可轻松提取任何稀疏模型,ELSA 具有简单、强大和高度灵活的特点,可以使用几乎任何现有的网络稀疏化和网络训练技术。实验证明, - 签名二进制化:通过重复稀疏化的效率优化
该论文介绍了在资源受限的边缘设备上进行深度神经网络 (DNN) 的有效推断的方法。它提出了重复 - 稀疏性权衡的概念,并提出了一种统一的协同设计框架,称为有符号二值化,用于解决该权衡问题。该方法在真实硬件上实现了 26% 的加速,能源效率提 - 过度参数化对锐度感知最小化的影响:实证与理论分析
训练过参数的神经网络可以得到相同训练损失水平但具有不同泛化能力的极小值。本文分析了过参数化对锐度感知最小化策略(SAM)行为的关键影响,并提供了经验和理论结果,表明过参数化对 SAM 具有重要影响。具体而言,我们证明了在随机设置中 SAM - 关于从随机几何图中估算维度的注记
给定以未知密度 f 为基础的 n 个 i.i.d. 随机向量 Xi 产生的随机几何图 Gn,估计其潜在空间的维度 d 的问题。研究发现,在满足条件 n^(3/2) r_n^d→∞和 r_n=o (1) 的情况下,存在一个估计器,其在概率意义 - 改进的 TokenPose 与稀疏性
在这篇论文中,我们引入了稀疏性来改善人体姿势估计,在 MPII 数据集上的实验证明了我们的模型具有更高的准确性和新的最先进结果,并且对其他基于 Transformer 的模型提供了参考。
- 通用对抗攻击与稀疏表示之间的关系
通过稀疏性框架,本文研究了神经网络在计算机视觉任务中的敏感性以及与对抗性攻击的联系,揭示了对输入图像稀疏表示的攻击可以作为对神经网络的常见攻击表达,进一步解释了对抗性攻击的普遍性和可传递性。
- 利用分布式内存驱动多核处理器加速稀疏和循环模型的训练
通过在分布式本地内存上使用稀疏和循环模型训练方法,我们观察到与 GPU 相比,使用 MIMD 处理器 (Intelligence Processing Unit) 的稀疏激活张量在训练负载上实现了 5-10 倍的吞吐量增益,且在训练收敛或最 - 测试 RadiX-Nets:可行稀疏拓扑结构的进展
数据的指数增长引发了对机器学习研究和工业使用的计算需求。深度神经网络的稀疏化可以创建对复杂数据进行简化的表示。本文提出了一个用于 TensorFlow 的 RadiX-Nets 测试套件,通过测试 RadiX-Net 性能来简化可扩展模型的 - 图生成的离散扩散模型的稀疏训练
SparseDiff 是一种能够在图生成过程中利用稀疏性的去噪扩散模型,它能有效处理边列表表示的图,在保证生成性能的同时提高可伸缩性。
- 稀疏线性赌臂机器中的固定预算最佳臂识别
稀疏线性赌博机中的最佳臂识别问题,设计了基于 Lasso-OD 算法的两阶段线性最佳臂识别算法,对于稀疏且高维的线性赌博机,在固定稀疏度和预算下,通过精心设置超参数和平衡两个阶段的错误概率,获得显著的性能改进,同时在指数上接近极小极大最优。
- 成功将抽奖票假设应用于扩散模型
通过将 Lottery Ticket Hypothesis 应用于扩散模型,本研究首次在基准测试上发现了在稀疏度为 90%-99% 时仍能保持性能的子模型,并提出了一种可以在模型的不同层之间具有变化稀疏度的方法。
- 回到过去:推理阶段中的高效低密度语言模型
使用上下文稀疏性预测算法和异步硬件感知实现,提出了 DejaVu 系统,可在不影响模型质量的情况下将 OPT-175B 的推理延迟降低了 2 倍,并且相比于最先进的 FasterTransformer 实现和广泛使用的 Hugging Fa - 薄冰上的样本:重新评估神经网络的对抗剪枝
神经网络剪枝是一种有效的技术,可以减小网络大小,以提高稀疏性,但会牺牲泛化能力和对抗攻击的鲁棒性。本研究重新评估了三种最先进的对抗剪枝方法,发现它们的鲁棒性被高估,同时发现剪枝后,在接近未剪枝模型决策边界的样本通常被错误分类。通过讨论这一发 - 量化语言模型中的特征稀疏性
最近的研究工作提出了一种假设,即语言模型中的激活可以被建模为对应于输入文本特征的向量的稀疏线性组合。在这个假设下,这些工作旨在使用稀疏编码重构特征方向。我们开发了度量方法来评估这些稀疏编码技术的成功,并测试线性和稀疏假设的有效性。我们展示了 - 大语言模型推理加速的稀疏微调
我们研究了大型语言模型的精确稀疏微调问题,通过引入稀疏权重在专门的任务上微调预训练的语言模型。我们提出了一种称为 SquareHead 的基于 L2 范数的蒸馏方法,能够在高稀疏率下实现准确恢复,并展示了稀疏语言模型在 CPU 和 GPU - SUBP:用于 1xN 稀疏 CNNs 多线程加速的软均匀块剪枝
通过软均匀块剪枝法(SUBP),本文提出了一种从零开始训练均匀 1xN 稀疏结构网络的方法,通过块角冗余和均匀重要性抽样,在训练过程中使修剪的块能够以均匀的方式再次生长到网络中,不仅降低了对预训练的依赖性,减少了模型冗余和永久修剪重要块的风 - 压缩 LLMs:真实很少纯粹而简单
尽管现代大型语言模型在取得显著成就的同时遇到了过高的计算和内存占用问题,但最近的研究工作展示了基于裁剪和量化的无需训练和无需数据的压缩方法在压缩大型语言模型方面取得了显著成功。本研究介绍了一种名为 LLM-KICK 的压缩语言模型评估协议, - 稀疏神经网络的硬件限制:稀疏屋顶线
我们引入了稀疏屋顶线,一种用于评估神经网络中稀疏性能的视觉性能模型。该模型同时考虑了网络准确性、稀疏性和预测的推理加速度。通过使用一种新颖的分析模型预测稀疏网络性能,并通过在多个真实世界计算机视觉架构上对稀疏模式和程度进行验证,我们验证了预