- 简短高效:修剪长文件以进行代码生成
数据修正在 LLM 训练中被认为是一种 “秘诀”,质量更高的数据通常会导致更好的 LLM 性能。本文比较了基于嵌入和基于启发式的数据过滤方法,并发现在计算受限的情况下,简单的启发式方法(修剪长代码文件)在训练效率和性能方面优于其他方法。
- 自动语音识别的动态数据修剪
本研究首次探索了自动语音识别领域中的动态数据修剪方法(DDP-ASR),通过动态选择 70%的数据,实现了与全部数据训练相当的性能,同时为语音相关数据集提供了细粒度的修剪选择,节省了高达 1.6 倍的训练时间。
- 健壮数据剪枝的几何中位数匹配
提出一种基于几何中位数匹配的全新数据修剪方法,通过选择近似几何中位数的子集来改善神经网络在存在噪声和腐败的情况下的剪枝效果,并在大量实验证明该方法在数据修剪方面表现优于现有方法。
- 从数据压缩角度测量数据修剪中样本重要性
数据压缩视角下的信息性剪枝方法可提高大语言模型(LLM)的泛化能力,并改进语言建模和下游任务的性能。
- ICML通过数据重要性外推在对抗训练中进行大规模数据集剪枝
基于从小数据集外推数据重要性分数的数据修剪策略,在保持鲁棒性的同时有效地减小数据集大小。
- ACL关键学习时期:利用早期训练动态进行高效数据修剪
我们提出了一种新的数据修剪技术:Checkpoints Across Time (CAT),通过利用早期模型训练动态来识别对模型性能最相关的数据点,实现了在减少 50% 的训练数据的同时,与使用完整数据集的性能相当,且优于其他数据修剪技术。
- PUMA:基于边缘的数据修剪
深度学习在分类准确性方面已经能够超过人类在许多任务上的表现。然而,为了实现对抗性扰动的稳健性,最佳方法通常需要对更大的训练集进行对抗性训练,而这些训练集通常是通过生成模型(如扩散模型)进行增强的。在本文中,我们的主要目标是减少这些数据要求, - IJCAIVCC-INFUSE: 半监督学习中准确高效的未标记样本选择
我们提出了两种方法:Variational Confidence Calibration (VCC) 和 Influence-Function-based Unlabeled Sample Elimination (INFUSE),VCC - 强健数据修剪:揭示和克服隐性偏见
在数据密集型模型的时代,精心选择训练数据对于减轻深度学习的昂贵成本至关重要。本文通过删除冗余或无信息的样本来解决这个问题,并提出了一个公平感知的修剪方法,其在标准计算机视觉基准上展示了良好的性能,与现有算法形成鲜明对比。
- 数据剪枝中的知识提取
通过集成知识蒸馏技术,本文探讨在数据修剪过程中的应用,证明了使用简单随机修剪方法优于复杂的修剪方法,并研究了修剪程度与知识蒸馏权重的关系,以及教师网络规模对准确性的影响。
- 通过合成异常数据解码数据质量:基于嵌入式指导的代码数据剪枝
利用嵌入空间检测和去除低质量代码数据的研究工作表明,采用合成污染信息的剪枝方法 (SCIP) 在数据清理方面取得了显著的性能提升,并展示了合成污染对数据剪枝的有益见解。
- 通过最大化重新标记准确性实现噪声标签下的稳健数据修剪
通过重新标记和剪枝训练集,本研究提出了一种最大化数据子集总体近邻置信度以提高重新标记准确性和泛化性能的数据剪枝算法。在实验中,该算法相比于重新标记模型提高了 9.1%,相比于标准模型提高了 21.6%。
- ICML以数据为中心的饮食:针对医学图像分割的有效多中心数据集剪枝
本文研究了稠密标记问题,提出了一种数据修剪方法,通过考虑目标区域上的训练动态使用动态平均 Dice(DAD)得分,确定了医学图像分割中选择重要示例的简单而强大的基准方法。
- 数据饮食中的 NLU: 动态数据子集选择用于 NLP 分类任务
本研究提出了一种基于动态数据修剪的方法,使用 EL2N 度量和初始微调阶段,在保持完整准确性的同时,可将数据量减少 50%~80% 以大大减少微调时间,并在 GLUE 基准测试和四个联合 NLU 数据集上展现出更好的时间 - 准确性平衡。
- 重复随机抽样减少学习时间达到准确性
本文研究了训练神经网络的数据选择方法,提出了一种名为 RS2 的方法,利用随机抽样的方式显著提高了数据训练的效率,并在四个数据集上得到了验证。
- AAAI越少越好:数据修剪加速对抗训练
提出基于数据修剪的针对深度神经网络的对抗训练,通过减少数据层面的冗余来提高计算效率,实现和未修剪模型相似或更高的鲁棒性和准确性。
- 研究提议:“高质量数据是否足够?
本文研究如何选择和创建高质量基准数据的子集以及对于模型的有效学习是否真正需要大型数据集,并计划研究数据修剪和数据创建范式以生成高质量数据。
- 数据减肥下的深度学习:在训练早期找到重要例子
本文介绍了一种利用 Gradient Normed (GraNd) 和 Error L2-Norm (EL2N) 这两个简单的得分标准来识别深度学习中最重要的数据训练样本,并进行数据修剪以提高模型效果的方法,同时研究了数据分布对模型损失面的 - CVPRDISCO:深度神经网络的动态不变敏感通道混淆
该研究提出了一种基于深度学习模型的数据剪枝方法 DISCO,能够保护个人隐私信息,并通过攻击方案的实验验证表明其有效性和实用性。