DPPA: 大型语言模型的修剪方法以模拟合并

Mar, 2024

DPPA: 大型语言模型的修剪方法以模拟合并

DPPA: Pruning Method for Large Language Model to Model Merging

Yaochen Zhu, Rui Xia, Jiajun Zhang

TL;DR通过提出动态修剪分区增强（DPPA）的双阶段方法，本文解决了合并复杂精调模型的挑战，该方法将动态修剪和动态分割放大两种策略相结合，实验结果表明，该方法在保留少于 20% 的特定领域参数的同时，表现与保留 90% 参数的其他方法相媲美，并且在模型合并中表现优异，性能提升将近 20%。

Abstract

model merging is to combine fine-tuned models derived from multiple domains, with the intent of enhancing the model's proficiency across various domains. The principal concern is the resolution of parameter conflicts

model merging parameter conflicts dare approach complex fine-tuned models dynamic pruning partition amplification

发现论文，激发创造

用于神经机器翻译领域自适应的剪枝扩张模型

该研究介绍了一种基于神经机器翻译的重要性修剪方法，通过知识蒸馏和参数细调，解决了域自适应中的遗忘、差异和模型爆炸等问题，从而达到了在通用域和特定域翻译中都取得显著提高的目的。

Mar, 2021

PDP: 无需参数的可导修剪就是你所需的

提出一种高效、有效的训练时裁剪方案 ——Parameter-free Differentiable Pruning（PDP），可适用于各种视觉和自然语言任务，支持无结构裁剪约束，基于训练时动态权重函数生成软裁剪掩码并得到最新的模型大小、精确度和培训成本。

May, 2023

DELLA-Merging: 通过基于大小的抽样减少模型合并中的干扰

利用一种新的模型合并技术 DELLA-Merging，它采用了一种名为 MAGPRUNE 的修剪技术，通过首先按照参数的大小对其进行排名并给较小的参数分配更高的丢弃概率 (p)，接着在随机丢弃的参数上通过缩放操作近似原始嵌入。在三种不同的专家模型和相应的基准数据集上，DELLA 相较于基线方法（delta 参数修剪）平均提升了 2.4 个点（相较于 TIES 提升了 3.6 个点，相较于 DARE 提升了 1.2 个点），相较于无修剪的基线方法（TA）提升了 11.1 个点。

Jun, 2024

MADTP：多模态对齐引导的动态标记修剪加速视觉 - 语言转换器

提出一种名为 MADTP 的新框架，通过多模态对齐和动态令牌修剪来加速各种视觉语言变换 (VLTs) 模型，显著减少计算复杂度同时保持竞争性能。

Mar, 2024

COPAL：大型语言生成模型的持续剪枝

本文提出了 COPAL 算法（COntinual Pruning in Adaptive Language settings）用于在持续的模型适应环境中对大型语言生成模型进行修剪，通过敏感性分析引导修剪过程，从而提高模型适应新领域的能力并增强资源效率。实证评估表明，COPAL 在效率和适应性方面优于基准模型。

May, 2024

APT: 自适应剪枝和调整预训练语言模型用于高效训练和推理

通过自适应修剪和调整参数，APT 可以提高语言模型的训练和推理效率，同时保持高性能。

Jan, 2024

从密集到稀疏：对比剪枝用于更好的预训练语言模型压缩

我们提出了一种名为 ContrAstive Pruning（CAP）的模型压缩框架，它保留了先前模型的任务不可知知识和任务特定知识，并证明了该方法在极高稀疏度情况下均能显著提高模型性能。

Dec, 2021

预算感知剪枝：用较少的参数处理多个领域

通过剪枝模型，我们能够在具有多个领域的测试环境中处理更少的参数和更低的计算复杂度，从而更好地适应资源受限的设备。

Sep, 2023

大规模语言模型的高效剪枝与自适应推理融合

用于资源受限设备的大型语言模型结构剪枝方法，在多层结构的基础上，通过自适应建模和融合估计结果实现了对每个子结构的重要性的自适应调整，实验结果表明在主流数据集上相比最先进的方法，平均准确率提高了 1.1％，1.02％，2.0％和 1.2％。

Mar, 2024

基于梯度自由的自适应全局修剪预训练语言模型

通过重新定义全局修剪过程为可管理的、协调的子问题，并利用辅助变量进行问题分解，AdaGP 框架在 LLMs 上展示了重要的性能提升，特别是在高稀疏度范围内超越了当前最先进的方法。

Feb, 2024