- PERP: 重新思考 LLM 时代的修剪再训练范式
通过修剪来高效地压缩神经网络,减少存储和计算需求,同时保持预测性能,我们提出了一种参数高效的修剪后重训练方法,使得修剪和重训练大规模语言模型的任务成为可能。
- AAAI利用其学习的流形上的局部密度结构压缩图像到图像翻译生成对抗网络
GAN 压缩方法从新的角度出发,通过在生成样本周围的局部邻域中保持原始模型的密度结构,提供了一种新的剪枝目标来规范剪枝模型,同时开发了一种协同剪枝方案,有效地在剪枝过程中保持生成器和判别器之间的平衡,从而展示出更稳定的剪枝动态。
- 剪枝语言模型:重现” 稀疏可能扬声器 “基准上的准确性
在 BERT 模型的剪枝过程中,我们提出了一组成功剪枝的通用指南,包括与目标稀疏度相关的训练、稀疏化和学习率调整调度的简单方法,以及在 LLM 上进行知识蒸馏时适当参数化的重要性,这些简单的洞察力使我们在经典 BERT 剪枝基准和 SMC - 卷积神经网络架构优化
卷积神经网络(CNN)在面对声音识别、自然语言处理或计算机视觉等具有挑战性的任务时被广泛使用。本文提出了一种新颖的 CNN 优化和构建方法,基于剪枝和知识蒸馏,旨在确定卷积层的重要性,以减少计算要求,并在资源受限设备上部署。经过彻底的实证研 - 优化密集前馈神经网络
通过剪枝和迁移学习,我们提出了一种新颖的前馈神经网络构建方法,能在不损失准确率的情况下压缩参数数量超过 70%,并且通过精心选择剪枝参数,大多数精炼模型的性能优于原始模型,从而不仅有助于更高效的模型设计,而且更有效的使用。
- 高效神经网络的类别感知剪枝
深度神经网络(DNNs)在各个领域取得了显著的成功。然而,DNNs 中的大量浮点运算(FLOPs)对于在资源受限应用中部署它们提出了挑战。为了解决这个问题,引入了修剪技术来减少执行 DNNs 的计算成本。与以往的修剪方法不同,本文提出了一种 - 加速卷积神经网络剪枝的空间灵气熵
我们提出了一种改进 CNN 剪枝的方法,通过使用空间灵气熵来改善互信息的计算,以提高剪枝的鲁棒性和效率。在 CIFAR-10 基准数据集上的实验结果展示了我们方法在剪枝性能和计算效率方面的优越性。
- 多层覆盖与折叠图神经网络及强彩票
该研究基于强彩票模型假设(SLTH)证明了初始化模型中存在高效子网络,通过修剪卷积神经网络(CNN)而无需进行权重训练。论文通过采用多层拓扑和非共享蒙版方法在图神经网络(GNNs)中实现了 M-Sup 标量修剪蒙版,并通过自适应设置修剪阈值 - 具备稀疏约束的端到端网络剪枝流程
神经网络稀疏化通过减少模型大小、计算复杂度和内存占用的同时保持竞争性能,成为在资源受限设备上部署的有效技术。本研究开发了适应神经网络稀疏化的全程训练流程,利用非标准模型参数初始化、预修剪训练方法和后修剪训练优化等技术,实现了显著提升于当前最 - 视觉提示提升神经网络稀疏化:数据模型视角
本研究从数据 - 模型协同设计的角度,提出了一种新颖的数据 - 模型协同设计方法,通过学习重要的模型拓扑和充足的输入数据,促进优秀权重稀疏性。实验结果表明,使用该方法可以显著提高模型剪枝效果,并且从预训练模型中发现的子网络在不同的场景下具有 - EMNLP压缩的成本:研究压缩对语言模型参数化知识的影响
压缩大型语言模型(LLM)包含数十亿参数,可以提供更快的推理速度,更小的内存占用,并支持本地部署。我们通过对多个模型系列(ENCODER、ENCODER-DECODER 和 DECODER)使用 LAMA 和 LM-HARNESS 基准进行 - 模型压缩与对抗鲁棒性的关系:当前证据综述
增加模型容量是增强深度学习网络对抗性鲁棒性的已知方法之一,而剪枝和量化等压缩技术则可以减小网络的大小同时保持准确性。本研究总结了现有证据并讨论了观察到的效果可能的解释。
- 大型语言模型的后训练修剪和量化受校准数据的影响
通过大型语言模型的模型压缩,剪枝和量化构成了神经网络模型压缩的基础,而本文首次对校准数据对 LLM 性能的影响进行了广泛的实证研究,并发现下游任务性能存在显著的变化,为 LLM 量化和剪枝的有效使用提供了一系列的建议。
- 轻量但更忠实:研究剪枝大型语言模型在抽象摘要生成中的幻觉
通过对大型语言模型在抽象摘要生成中修剪算法的实证研究,发现修剪后的模型与完整模型相比更少出现幻觉,并提出其与源输入之间的更高词汇重叠可能是幻觉减少的原因。
- 脑启发式高效剪枝:利用脉冲神经网络中的关键性质
本文提出了一种采用重建机制来高效获取关键修剪网络的方法,通过基于关键修剪结构的低成本度量,重新排名修剪结构并重建那些具有更高关键性的结构,实现了比现有方法更高的性能和加速度,同时研究了机制潜在机理并发现了其在恢复阶段能够高效选择潜在结构、学 - MMLXMERT 模型压缩用于视觉问答
本研究通过结合 LXMERT 模型的特点和可训练子网络的观察,评估在 VQA 任务上微调的 LXMERT 模型中是否存在可独立进行训练的子网络,并通过对模型大小利益分析,探究在不显著降低准确度的情况下可以进行多少程度的模型剪枝。实验结果表明 - 面向鲁棒剪枝:一种自适应知识保留剪枝策略
本文提出了一种基于事先训练的知识的后期剪枝策略,旨在在剪枝过程中保留更多事先训练的知识,从而提高语言模型的鲁棒性。与其他最先进的基准方法相比,在数据集 SST2、IMDB 和 AGNews 上,我们的方法在准确性、稀疏性、鲁棒性和剪枝成本之 - Compresso: 结构化剪枝与合作促使学习紧凑的大型语言模型
通过合作的剪枝算法和大型语言模型自身,在数据收集和训练成本昂贵的挑战下,Compresso 通过在训练过程中学习最优的剪枝决策以及引入协同提示进一步增强了剪枝算法,成功将 LLaMA-7B 剪枝至 5.4B,并在阅读理解上超过 LLaMA- - 贝叶斯模型简化的深度神经网络的贝叶斯稀疏化
深度学习的复杂模型限制了其巨大潜力的发挥,需要高效的稀疏化技术。贝叶斯稀疏化是一种关键方法,能够设计出在各种深度学习应用中既计算效率高又性能竞争力强的模型。本研究指出贝叶斯模型简化是一种更高效的模型参数修剪方法,相对于现有的基于随机变分推断 - 通过神经网络修剪揭示不变性
我们提出了一种通过修剪学习到的新型网络架构以捕捉数据依赖的不变性的框架,在视觉和表格数据集上,我们学到的网络架构始终比密集神经网络在效率和效果上表现更好。