探索用于下游数据修剪的学习复杂性

Feb, 2024

探索用于下游数据修剪的学习复杂性

Exploring Learning Complexity for Downstream Data Pruning

Wenyu Jiang, Zhenlong Liu, Zejian Xie, Songxin Zhang, Bingyi Jing...

TL;DR通过将学习复杂度作为评分函数，本文提出了一种高效的修剪方法，可用于优化 fine-tuning 过程中的计算资源需求，并在大型语言模型的指令 fine-tuning 任务上取得了优越的性能。

Abstract

The over-parameterized pre-trained models pose a great challenge to fine-tuning with limited computation resources. An intuitive solution is to prune the less informative samples from the →

over-parameterized pre-trained models fine-tuning pruning learning complexity instruction fine-tuning

发现论文，激发创造

当少即是多：探究大规模预训练 LLMs 的数据修剪

通过比较数据质量的简单估算方法困惑度和更复杂、计算密集的评估方法的错误 L2 范数和记忆化，我们发现困惑度方法在去除数据噪声和提升预训练数据集质量方面具有较好的效果。我们能够在仅使用原始训练数据的 30% 进行训练的情况下，改进我们的基准模型，这为自动筛选高质量数据集提供了新的方法论，并表明大部分的预训练数据可被删除而保持性能。

Sep, 2023

从数据压缩角度测量数据修剪中样本重要性

数据压缩视角下的信息性剪枝方法可提高大语言模型（LLM）的泛化能力，并改进语言建模和下游任务的性能。

Jun, 2024

基于概念聚类复杂性的大规模网络数据集的有效剪枝

利用大规模网络数据集进行训练会消耗可观的计算资源，本文研究通过修剪大规模多模态数据集来提高训练效率，并通过筛选高质量数据集以降低训练成本，从而在 ImageNet 数据集上取得了更好的性能。

Jan, 2024

走向计算优化的迁移学习

本研究提出了一种简单而有效的方法，即使用预训练模型进行零 - shot 结构化剪枝，从而在尽量减少计算量的情况下实现性能的提升，实验证明，在低计算量条件下对预训练模型进行卷积过滤的剪枝可以带来超过 20% 的性能提升。

Apr, 2023

语言模型的降低规模成本：在上下文学习之前事实记忆退化

参数扩展对大型语言模型核心能力的影响是如何的？我们研究了两种常见的扩展技术 —— 权重剪枝和直接训练更小或更大的模型，并分析了它们对语言模型的两个核心能力的影响：(a) 回忆在预训练阶段出现过的事实；(b) 处理推理过程中的上下文信息。通过设计一系列任务，我们发现了这两个能力在不同扩展方式下的差异。将模型大小减少 30% 以上（通过任何扩展方法）会显著降低回忆预训练中出现的事实的能力，但是将模型大小减少 60-70% 则大致保留了模型在处理上下文信息时的各种方式，从从长篇文本中检索答案到通过上下文示例学习参数化函数。密集扩展和权重剪枝都表现出这种行为，这表明模型大小的扩展对于事实回忆和上下文学习具有本质上不同的影响。

Oct, 2023

基于预训练模型学习样本难度以实现可靠预测

本文提出了一个方法，即基于样本难度感知熵正则化，利用经过大规模训练的预先训练模型指导下游模型训练，并同时提高了准确性和不确定性校准的可靠预测，克服了现代神经网络的困难，这是一个未被充分探索的领域。

Apr, 2023

巧妙之道：利用下游分析能力导航大型语言模型预训练

通过详细分析不同预训练模型中的不同能力表现，我们确认了特定下游指标在不同大小的模型中展示相似的训练动态，多达 670 亿参数。此外，我们还复现了 Amber 和 OpenLLaMA，并发布了它们的中间检查点，以为研究界提供宝贵的资源，促进对开源研究人员的 LLM 预训练进行验证和探索。此外，我们提供了不同模型和能力的性能比较以及不同训练阶段的关键指标指导的实证总结。基于这些发现，我们提供了一种更用户友好的评估优化状态的策略，为建立稳定的预训练流程提供指导。

Apr, 2024

LaCo：大型语言模型通过层坍缩进行修剪

提出了一种被称为 extit {Layer Collapse (LaCo)} 的简洁的逐层修剪方法，将后置模型层折叠到先前层，实现了模型大小的快速减小而同时保留了模型结构；全面的实验表明，该方法在修剪比例为 25-30% 时保持了超过 80% 的平均任务性能，显著优于现有最先进的结构修剪方法；还进行了后训练实验证实所提出的修剪方法有效继承了原始模型的参数，并从逐层相似性的角度讨论了提出该方法的动机，评估了修剪的大型语言模型在各种修剪比例下的性能。

Feb, 2024

结构化剪枝学习紧凑而精确的模型

提出 CoFi（粗细粒度剪枝）方法，该方法结合了粗细粒度模块的剪枝决策，并采用分层蒸馏策略将知识从未剪枝模型转移到已剪枝模型，使模型同时拥有与蒸馏方法相当的精度和延迟优势，而无需使用无标注数据。在 GLUE 和 SQuAD 数据集上的实验表明，CoFi 方法在速度和精度方面相对于以前的剪枝和蒸馏方法具有更高的效率和效果。

Apr, 2022

迷惘于迷惘：基于困惑度的小参考模型数据修剪

通过研究发现，对大规模文本数据集进行小型语言模型基于困惑度的修剪，可以显著提高后续任务的性能，并且能够在过度训练和数据受限制的情况下获得下游性能增益。

May, 2024