迷惘于迷惘：基于困惑度的小参考模型数据修剪

May, 2024

迷惘于迷惘：基于困惑度的小参考模型数据修剪

Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models

Zachary Ankner, Cody Blakeney, Kartik Sreenivasan, Max Marion, Matthew L. Leavitt...

TL;DR通过研究发现，对大规模文本数据集进行小型语言模型基于困惑度的修剪，可以显著提高后续任务的性能，并且能够在过度训练和数据受限制的情况下获得下游性能增益。

Abstract

In this work, we investigate whether small language models can determine high-quality subsets of large-scale text datasets that improve the performance of larger language models. While existing work has shown that pruni

small language models pruning perplexity-based data pruning downstream task performance pretraining steps

发现论文，激发创造

当少即是多：探究大规模预训练 LLMs 的数据修剪

通过比较数据质量的简单估算方法困惑度和更复杂、计算密集的评估方法的错误 L2 范数和记忆化，我们发现困惑度方法在去除数据噪声和提升预训练数据集质量方面具有较好的效果。我们能够在仅使用原始训练数据的 30% 进行训练的情况下，改进我们的基准模型，这为自动筛选高质量数据集提供了新的方法论，并表明大部分的预训练数据可被删除而保持性能。

Sep, 2023

BERTIN: 使用 Perplexity Sampling 高效预训练西班牙语言模型

本文研究了大型语言模型的预训练，提出了一种数据选择技术，名为困惑采样，可以在更少的时间和数据量下，通过变压器模型的预训练实现与最先进模型相当的效果。该技术对开发人员有很大帮助。

Jul, 2022

通过准确度预测器修剪大型语言模型

基于新的剪枝方法与准确度预测模型，本研究提出一种能够自动选择最佳模型的压缩方法，实验证明其有效性和高效性。相较于基准模型，Wikitext2 和 PTB 上的困惑度分别降低了 9.48% 和 5.76%，而平均 MMLU 准确度提高了 6.28%。

Sep, 2023

简短高效：修剪长文件以进行代码生成

数据修正在 LLM 训练中被认为是一种 “秘诀”，质量更高的数据通常会导致更好的 LLM 性能。本文比较了基于嵌入和基于启发式的数据过滤方法，并发现在计算受限的情况下，简单的启发式方法（修剪长代码文件）在训练效率和性能方面优于其他方法。

Jun, 2024

语言缩水了：缩减规模后的语言模型行为

本文研究小规模的语言模型中 pre-training 效果的影响，发现 masked language modeling 对于 1.25M 及以上规模的模型具有优化效果，并建立了 pre-training perplexity 和下游任务 (GLUE benchmark) 表现的强关联性。同时，研究了 downscaling effects，并且观察到 FLOPs 小于 $2.2×10^{15}$ 时，MLM loss 并不随着计算成本 (FLOPs) 的降低而平滑缩小，增加层数并不总是有助于提高下游表现。

May, 2023

PruMUX：使用模型压缩增强数据复用

本文介绍一种名为 PruMUX 的新方法，将模型剪枝和数据多路复用方法相结合以提高模型的效率，并通过参数（如稀疏度和复用因子）的综合分析，提出了一种元模型 Auto-PruMUX，可以预测模型剪枝和数据多路复用的高性能参数，以提供一种有效的方法。

May, 2023

大型语言模型修剪

本研究提出了一种针对 LLMs 的模型修剪技术，强调深度学习模型的可解释性，并通过互信息估计和调参来指导修剪过程。同时，还探讨了大规模模型和小规模模型的修剪差异，并展示了所提出模型相对于现有模型的优越性。

May, 2024

大型语言模型的结构裁剪

该研究通过结构化剪枝方法，以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量，提高了大型语言模型的压缩效果和训练 / 推理速度，并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。

Oct, 2019

当小的更小时会发生什么？探究对小数据预训练语言模型进行压缩的影响

压缩技术对小规模数据语言模型的效率和效果具有显著改善作用，证实了对大规模参数化模型的压缩效果的普遍观点同样适用于小规模数据模型。

Apr, 2024

移动设备神经语言模型自适应修剪

本文通过在 quasi-recurrent neural networks (QRNNs) 基础上应用剪枝技术来提供一种选择不同操作点的 “旋钮”，并提出一种使用可忽略量的内存恢复一些 perplexity 的简单技术，并在树莓派上考虑 perplexity 和能耗两方面的实证评估，证明了哪种方法能提供最佳的 perplexity - 能耗操作点，其中一种技术能够在一个操作点上相对于现有技术，提供 40％的能量节省和仅 17％的相对 perplexity 增加。

Sep, 2018