高效语言数据抽样的规模化影响分数
本文研究使用任务不可知的自我影响分数对训练数据进行清洗的有效性,通过分析其在捕捉自然异常值方面的功效来调查自我影响数据清洗对机器翻译、问答和文本分类等任务的改进程度,利用自我影响计算的最新方法和自动课程学习作为基础。
Feb, 2023
在工业规模的环境中,特别是在资源有限的语言中,我们通过熵和 EL2N 评分来评估潜在的训练样本的 “有用性” 或 “难度”,并展示了如何使用这些度量来选择用于训练监督机器学习模型的重要样本。我们使用这些度量从大量的 “弱信号标记” 数据中筛选高质量的数据集,然后进行以评分为基础的选择来增强训练数据实验,与随机选择的基线技术相比,结果显示了语义错误率下降 2% 和领域分类错误率下降 4%-7%。
Nov, 2023
我们提出了 PRESENCE 方法,通过利用自我影响(SI)得分作为样本重要性和预训练的指标来共同重新加权样本,从而促进模型预训练的新颖性和稳定性,填补了在预训练语言模型中采用模型驱动的样本重新加权的重要领域的空白。
Nov, 2023
我们提出了 DataInf,一种高效的影响力近似计算方法,可用于大规模生成型 AI 模型。通过利用易于计算的闭合形式表达式,DataInf 在计算和内存效率方面优于现有的影响力计算算法。我们的理论分析表明,DataInf 特别适用于 LoRA 等参数效率高的微调技术。通过系统的实证评估,我们表明 DataInf 准确地近似了影响力分数,并且比现有方法快几个数量级。在 RoBERTa-large、Llama-2-13B-chat 和 stable-diffusion-v1.5 模型的应用中,DataInf 能够比其他近似影响力分数更好地识别出影响最大的微调示例,而且可以帮助识别出错误标记的数据点。
Oct, 2023
本文提出了一种采用数据影响方法的方法来检测神经源代码模型中的噪声,研究结果表明数据影响方法可以在分类任务中从神经代码模型中识别出噪声,从而有助于从数据为中心的角度发展更好的神经源代码模型。
May, 2022
本文提出了一种基于 Influence Subset Selection(ISS)的方法,利用端到端任务知识选择一个较小的语言模型预训练语料库子集,并以较低的计算成本获得与 RoBERTa 等大型预训练模型相媲美的性能。
May, 2023
通过利用一种新颖的统计测试方法,我们发现词汇分布与文本蕴含类之间存在显著关联,强调词汇是一种明显的偏差源。为了减轻这些问题,我们提出了几种自动数据增强策略,从字符到词级别。通过对 ELECTRA 预训练语言模型进行微调,我们将有增强数据的模型与基准模型进行了比较。实验证明,所提出的方法可以有效提高模型准确性,并分别减少偏差约 0.66% 和 1.14%。
Dec, 2023
本文介绍了一种基于重要性重采样的数据选择算法,该算法可以在减少特征空间的基础上从大型无标签数据集中选择与目标分布匹配的样本子集。在训练通用领域(例如维基百科)和特定领域的语言模型时,该算法能够显着提高模型的性能。
Feb, 2023
在该论文中,我们首次将 GraNd 和 EL2N 这两个用于发现重要样本的梯度基于评分指标,应用于 NLP,证明了我们可以通过剪枝训练集中最高 GraNd / EL2N 得分的一小部分样本,不仅可以保持测试准确性,而且可以超越它。
Nov, 2022