数据饮食中的 NLU: 动态数据子集选择用于 NLP 分类任务
本文提出了一种数据集剪枝方法,利用预测不确定性和训练动态来生成一个信息量丰富的子集,从而用人口可承受的计算成本代替大规模数据集进行深度模型训练,实验结果表明该方法表现优于现有技术,对 ImageNet-1K 和 ImageNet-21K 数据集均获得了 75% 的无损压缩率。
Jun, 2023
在该论文中,我们首次将 GraNd 和 EL2N 这两个用于发现重要样本的梯度基于评分指标,应用于 NLP,证明了我们可以通过剪枝训练集中最高 GraNd / EL2N 得分的一小部分样本,不仅可以保持测试准确性,而且可以超越它。
Nov, 2022
使用无标签开放数据进行预精调预训练语言模型以最小化领域特定数据需求,并在达到预期性能水平的同时选择数据以将预训练分布推向目标分布的优化方法,展示了该方法在各种任务中的优越性和快速性,为经济高效的微调奠定了基础。
May, 2024
我们提出了一种新的数据修剪技术:Checkpoints Across Time (CAT),通过利用早期模型训练动态来识别对模型性能最相关的数据点,实现了在减少 50% 的训练数据的同时,与使用完整数据集的性能相当,且优于其他数据修剪技术。
May, 2024
在工业规模的环境中,特别是在资源有限的语言中,我们通过熵和 EL2N 评分来评估潜在的训练样本的 “有用性” 或 “难度”,并展示了如何使用这些度量来选择用于训练监督机器学习模型的重要样本。我们使用这些度量从大量的 “弱信号标记” 数据中筛选高质量的数据集,然后进行以评分为基础的选择来增强训练数据实验,与随机选择的基线技术相比,结果显示了语义错误率下降 2% 和领域分类错误率下降 4%-7%。
Nov, 2023
本研究首次探索了自动语音识别领域中的动态数据修剪方法(DDP-ASR),通过动态选择 70%的数据,实现了与全部数据训练相当的性能,同时为语音相关数据集提供了细粒度的修剪选择,节省了高达 1.6 倍的训练时间。
Jun, 2024
本文研究了稠密标记问题,提出了一种数据修剪方法,通过考虑目标区域上的训练动态使用动态平均 Dice(DAD)得分,确定了医学图像分割中选择重要示例的简单而强大的基准方法。
Aug, 2023
数据修正在 LLM 训练中被认为是一种 “秘诀”,质量更高的数据通常会导致更好的 LLM 性能。本文比较了基于嵌入和基于启发式的数据过滤方法,并发现在计算受限的情况下,简单的启发式方法(修剪长代码文件)在训练效率和性能方面优于其他方法。
Jun, 2024
我们研究了应用于基于 Transformer 的语音识别神经网络语言模型的模型修剪方法。我们探究了修剪框架的三个方面,即准则、方法和调度器,分析了它们在准确性和推理速度方面的贡献。除此之外,我们提出了一种适用于渐进式压缩模型、并可以交付多个具有不同目标尺寸的模型的低秩逼近的变体。我们的研究结果包括:a)在多种场景中,数据驱动的修剪效果优于基于幅度的修剪;b)渐进式修剪相比一次性修剪在准确性方面有更好的表现,特别是在目标尺寸较小时;c)对于中等压缩程度,低秩逼近提供了尺寸减小和推理加速之间的最佳平衡。
Oct, 2023