大型语言模型(LLMs)由于其庞大的规模而面临部署挑战。修剪方法通过去除权重的子集来加速,但其中许多需要重新训练,这是昂贵且计算需求高的。最近,提出了后训练修剪方法引入了新的度量标准,使得可以无需重新训练就能进行 LLMs 的修剪。然而,这些度量标准需要人工专家的参与和繁琐的试错。为了高效地确定优越的修剪度量标准,我们开发了一个自动框架来使用遗传编程搜索符号修剪度量标准。具体来说,我们设计了一个细致的搜索空间,涵盖现有的修剪度量标准,以发现潜在的符号修剪度量标准。我们提出了一种对立运算简化策略,以增加种群的多样性。通过这种方式,Pruner-Zero 允许自动生成符号修剪度量标准。基于搜索结果,我们探索了修剪度量标准与修剪后性能之间的相关性,并总结了一些原则。在语言建模和零样本任务的 LLaMA 和 LLaMA-2 上的大量实验表明,我们的 Pruner-Zero 的性能优于 SOTA 的后训练修剪方法。代码地址:https://github.com/pprp/Pruner-Zero。
Jun, 2024
本篇论文提出了一种基于正则化和对抗训练的跨语言模型,能够在口语理解系统中实现单词层面和句子层面的跨语言表示对齐,并在少量数据和零样本情况下实现比当前最先进方法更好的性能表现。
Sep, 2020
本研究提出了一种基于等式约束的 0-1 整数线性规划问题和自我正则化机制的迭代模型修剪方法,应用于各种基于 Transformer 的 PLMs,使得在高稀疏度时具有更好的泛化性能。
May, 2023
本文提出了首个零 - shot 的方法 Zero-TPrune,通过使用预先训练的 Transformer 模型的 attention 图来计算 token 的重要性和相似性,在保持高精度的前提下,大幅减少了模型的计算复杂度和推理时间。
本文主要研究了如何压缩大规模的预训练语言模型,并提出 Reweighted Proximal Pruning (RPP) 剪枝方法,实验结果表明该方法不仅能保持预训练和微调任务的高准确性,而且还能使得该模型能够在不同设备上进行部署。
Sep, 2019
本研究提出了一种基于正则化技术实现学习稀疏神经拓扑结构的方法,包括对非相关权重标定、压缩优化以及迭代式意义下的参数消除。在图像分类与自然语言生成任务中进行测试,并通过数据指标达到与或优于竞争对手等表现。
Apr, 2022
本研究提出了一种使用稀疏性约束进行神经网络剪枝的方法,该方法通过一系列随机门来收缩网络,以便训练和预测运算可以更加快速和高效。
Dec, 2017
通过对 mBERT 进行修剪,我们 quantifying 它的鲁棒性和逐层理解其重要性,结果表明缩减其注意力容量不会影响其鲁棒性。而在跨语言任务 XNLI 中,修剪会导致准确性下降,这表明跨语言转移的鲁棒性较低。此外,编码器层的重要性受语言族和预训练语料大小的影响。
Sep, 2021
本文研究了基于 transformer 的预训练语言模型的硬件友好型块结构裁剪技术,通过加入一项称为 “留组拉索” 的优化算法来进行裁剪操作并达到高压缩率,同时实验表明该方法适用于迁移到资源受限的边缘设备上。
为了实现个性化的语音生成,我们提出了一种基于稀疏关注机制的剪枝方法,用于增强 TTS 模型的泛化能力。该方法通过删除注意力权重低于阈值的冗余连接,灵活确定剪枝强度,同时改进了语音质量和说话人相似性。
Aug, 2023