从数据压缩角度测量数据修剪中样本重要性

Jun, 2024

从数据压缩角度测量数据修剪中样本重要性

Measuring Sample Importance in Data Pruning for Training LLMs from a Data Compression Perspective

Minsang Kim, Seungjun Baek

TL;DR数据压缩视角下的信息性剪枝方法可提高大语言模型（LLM）的泛化能力，并改进语言建模和下游任务的性能。

Abstract

compute-efficient training of large language models (LLMs) has become an important research problem. In this work, we consider data pruning

compute-efficient training large language models data pruning information content generalization capability

发现论文，激发创造

基于压缩的 LLM 排名

我们将理解过程视为信息压缩，并提出了一种基于无损数据压缩的大型语言模型（LLMs）排序方法。我们使用五个大型语言模型作为压缩的先验，并比较它们在困难的自然语言处理任务中的性能，包括句子完成、问题回答和共指消解。实验结果表明，压缩比率和模型性能呈正相关，因此可以作为评估大型语言模型的通用指标。

Jun, 2024

当少即是多：探究大规模预训练 LLMs 的数据修剪

通过比较数据质量的简单估算方法困惑度和更复杂、计算密集的评估方法的错误 L2 范数和记忆化，我们发现困惑度方法在去除数据噪声和提升预训练数据集质量方面具有较好的效果。我们能够在仅使用原始训练数据的 30% 进行训练的情况下，改进我们的基准模型，这为自动筛选高质量数据集提供了新的方法论，并表明大部分的预训练数据可被删除而保持性能。

Sep, 2023

使用原则重要性和自我正则化剪枝预训练语言模型

本研究提出了一种基于等式约束的 0-1 整数线性规划问题和自我正则化机制的迭代模型修剪方法，应用于各种基于 Transformer 的 PLMs，使得在高稀疏度时具有更好的泛化性能。

May, 2023

Compresso: 结构化剪枝与合作促使学习紧凑的大型语言模型

通过合作的剪枝算法和大型语言模型自身，在数据收集和训练成本昂贵的挑战下，Compresso 通过在训练过程中学习最优的剪枝决策以及引入协同提示进一步增强了剪枝算法，成功将 LLaMA-7B 剪枝至 5.4B，并在阅读理解上超过 LLaMA-7B2.62%，在共同推理、阅读理解、MMLU 和 BBH 基准测试上分别获得了 2.21%、11.43%、7.04% 和 4.81% 的更高分数，明显优于一次性剪枝基线。

Oct, 2023

序列标注的语言模型剪枝：高效的上下文表示

本研究提出了一种基于稀疏性诱导正则化的层选择方法，用于压缩大型预训练语言模型，以提高特定任务的计算效率，并在两个基准数据集上进行了实验验证其有效性。

Apr, 2018

大规模语言模型的结构剪枝 ——LLM-Pruner

提出一种名为 LLM-Pruner 的方法，在保持多任务求解和语言生成能力的同时，通过结构修剪来压缩 LLM，使得压缩模型在零样本分类和生成上仍然表现出令人满意的能力，并且只需要 50K 数据，在 3 小时内就能通过调整技术（LoRA）有效地恢复性能。

May, 2023

探索用于下游数据修剪的学习复杂性

通过将学习复杂度作为评分函数，本文提出了一种高效的修剪方法，可用于优化 fine-tuning 过程中的计算资源需求，并在大型语言模型的指令 fine-tuning 任务上取得了优越的性能。

Feb, 2024

基于归因修剪的多任务语言模型任务特定压缩

本研究提出了一种新颖的多任务语言模型压缩方法，使用剪枝方法，通过使用属性方法确定哪些神经元对于执行特定任务是必不可少的，然后对于不重要的神经元进行任务特定的修剪，进一步将该方法扩展到适用于低资源和无监督的场景。通过实验可以发现，该压缩方法不需要训练，使用少量计算资源，且不会破坏语言模型的预先训练的知识，且可以显着优于基线修剪方法，并且在未见过领域的情况下仍然保持性能。

May, 2022

简短高效：修剪长文件以进行代码生成

数据修正在 LLM 训练中被认为是一种 “秘诀”，质量更高的数据通常会导致更好的 LLM 性能。本文比较了基于嵌入和基于启发式的数据过滤方法，并发现在计算受限的情况下，简单的启发式方法（修剪长代码文件）在训练效率和性能方面优于其他方法。

Jun, 2024

压缩的成本：研究压缩对语言模型参数化知识的影响

压缩大型语言模型（LLM）包含数十亿参数，可以提供更快的推理速度，更小的内存占用，并支持本地部署。我们通过对多个模型系列（ENCODER、ENCODER-DECODER 和 DECODER）使用 LAMA 和 LM-HARNESS 基准进行全面分析，以系统量化常用压缩技术对模型性能的影响，特别关注涉及参数化知识的权衡，旨在为从业人员提供实用的见解，帮助他们在压缩决策时做出明智的选择。

Dec, 2023