数据饮食中的 NLU: 动态数据子集选择用于 NLP 分类任务

Jun, 2023

数据饮食中的 NLU: 动态数据子集选择用于 NLP 分类任务

NLU on Data Diets: Dynamic Data Subset Selection for NLP Classification Tasks

Jean-Michel Attendu, Jean-Philippe Corbeil

TL;DR本研究提出了一种基于动态数据修剪的方法，使用 EL2N 度量和初始微调阶段，在保持完整准确性的同时，可将数据量减少 50%~80% 以大大减少微调时间，并在 GLUE 基准测试和四个联合 NLU 数据集上展现出更好的时间 - 准确性平衡。

Abstract

Finetuning large language models inflates the costs of nlu applications and remains the bottleneck of development cycles. Recent works in computer vision use →

large language models data pruning dynamic data pruning nlu applications el2n metric

发现论文，激发创造

动态不确定性下的大规模数据集修剪

本文提出了一种数据集剪枝方法，利用预测不确定性和训练动态来生成一个信息量丰富的子集，从而用人口可承受的计算成本代替大规模数据集进行深度模型训练，实验结果表明该方法表现优于现有技术，对 ImageNet-1K 和 ImageNet-21K 数据集均获得了 75% 的无损压缩率。

Jun, 2023

数据低基变压器：基于梯度裁剪的重要实例查找

在该论文中，我们首次将 GraNd 和 EL2N 这两个用于发现重要样本的梯度基于评分指标，应用于 NLP，证明了我们可以通过剪枝训练集中最高 GraNd / EL2N 得分的一小部分样本，不仅可以保持测试准确性，而且可以超越它。

Nov, 2022

從原則出發的數據選擇，為 LLMs 的預熱微調提供更多、花費更少

使用无标签开放数据进行预精调预训练语言模型以最小化领域特定数据需求，并在达到预期性能水平的同时选择数据以将预训练分布推向目标分布的优化方法，展示了该方法在各种任务中的优越性和快速性，为经济高效的微调奠定了基础。

May, 2024

关键学习时期：利用早期训练动态进行高效数据修剪

我们提出了一种新的数据修剪技术：Checkpoints Across Time (CAT)，通过利用早期模型训练动态来识别对模型性能最相关的数据点，实现了在减少 50% 的训练数据的同时，与使用完整数据集的性能相当，且优于其他数据修剪技术。

May, 2024

数据选择的熵和边缘得分指标的全面基准评估

在工业规模的环境中，特别是在资源有限的语言中，我们通过熵和 EL2N 评分来评估潜在的训练样本的 “有用性” 或 “难度”，并展示了如何使用这些度量来选择用于训练监督机器学习模型的重要样本。我们使用这些度量从大量的 “弱信号标记” 数据中筛选高质量的数据集，然后进行以评分为基础的选择来增强训练数据实验，与随机选择的基线技术相比，结果显示了语义错误率下降 2% 和领域分类错误率下降 4%-7%。

Nov, 2023

自动语音识别的动态数据修剪

本研究首次探索了自动语音识别领域中的动态数据修剪方法（DDP-ASR），通过动态选择 70％的数据，实现了与全部数据训练相当的性能，同时为语音相关数据集提供了细粒度的修剪选择，节省了高达 1.6 倍的训练时间。

Jun, 2024

以数据为中心的饮食：针对医学图像分割的有效多中心数据集剪枝

本文研究了稠密标记问题，提出了一种数据修剪方法，通过考虑目标区域上的训练动态使用动态平均 Dice（DAD）得分，确定了医学图像分割中选择重要示例的简单而强大的基准方法。

Aug, 2023

简短高效：修剪长文件以进行代码生成

数据修正在 LLM 训练中被认为是一种 “秘诀”，质量更高的数据通常会导致更好的 LLM 性能。本文比较了基于嵌入和基于启发式的数据过滤方法，并发现在计算受限的情况下，简单的启发式方法（修剪长代码文件）在训练效率和性能方面优于其他方法。

Jun, 2024

无梯度结构剪枝与未标记数据

本文提出一种基于无标签数据的梯度无关结构裁剪框架，能够在不降低准确度的情况下，显著地减少预训练模型的计算成本，从而提高大型语言模型的推理效率。

Mar, 2023

神经语言模型修剪用于自动语音识别

我们研究了应用于基于 Transformer 的语音识别神经网络语言模型的模型修剪方法。我们探究了修剪框架的三个方面，即准则、方法和调度器，分析了它们在准确性和推理速度方面的贡献。除此之外，我们提出了一种适用于渐进式压缩模型、并可以交付多个具有不同目标尺寸的模型的低秩逼近的变体。我们的研究结果包括：a）在多种场景中，数据驱动的修剪效果优于基于幅度的修剪；b）渐进式修剪相比一次性修剪在准确性方面有更好的表现，特别是在目标尺寸较小时；c）对于中等压缩程度，低秩逼近提供了尺寸减小和推理加速之间的最佳平衡。

Oct, 2023