高效语言数据抽样的规模化影响分数

EMNLPNov, 2023

高效语言数据抽样的规模化影响分数

Influence Scores at Scale for Efficient Language Data Sampling

Nikhil Anand, Joshua Tan, Maria Minakova

TL;DR应用影响力分数评估语言分类任务，通过修剪训练数据来量化准确性变化，并提供基于分数采样的建议，以提高准确性和训练效率。

Abstract

Modern ml systems ingest data aggregated from diverse sources, such as synthetic, human-annotated, and live customer traffic. Understanding \textit{which} examples are important to the performance of a learning algorithm is crucial for efficient model training. Recently, a growing body

ml systems influence scores language classification pruning training data training efficiency

发现论文，激发创造

让每个样本都有价值：自我影响在学习嘈杂自然语言处理数据中的稳定性与效用

本文研究使用任务不可知的自我影响分数对训练数据进行清洗的有效性，通过分析其在捕捉自然异常值方面的功效来调查自我影响数据清洗对机器翻译、问答和文本分类等任务的改进程度，利用自我影响计算的最新方法和自动课程学习作为基础。

Feb, 2023

数据选择的熵和边缘得分指标的全面基准评估

在工业规模的环境中，特别是在资源有限的语言中，我们通过熵和 EL2N 评分来评估潜在的训练样本的 “有用性” 或 “难度”，并展示了如何使用这些度量来选择用于训练监督机器学习模型的重要样本。我们使用这些度量从大量的 “弱信号标记” 数据中筛选高质量的数据集，然后进行以评分为基础的选择来增强训练数据实验，与随机选择的基线技术相比，结果显示了语义错误率下降 2% 和领域分类错误率下降 4%-7%。

Nov, 2023

自我引导的数据重新加权用于语言模型预训练

我们提出了 PRESENCE 方法，通过利用自我影响（SI）得分作为样本重要性和预训练的指标来共同重新加权样本，从而促进模型预训练的新颖性和稳定性，填补了在预训练语言模型中采用模型驱动的样本重新加权的重要领域的空白。

Nov, 2023

DataInf: 在经过认证的 LLMs 和扩散模型中高效估计数据影响力

我们提出了 DataInf，一种高效的影响力近似计算方法，可用于大规模生成型 AI 模型。通过利用易于计算的闭合形式表达式，DataInf 在计算和内存效率方面优于现有的影响力计算算法。我们的理论分析表明，DataInf 特别适用于 LoRA 等参数效率高的微调技术。通过系统的实证评估，我们表明 DataInf 准确地近似了影响力分数，并且比现有方法快几个数量级。在 RoBERTa-large、Llama-2-13B-chat 和 stable-diffusion-v1.5 模型的应用中，DataInf 能够比其他近似影响力分数更好地识别出影响最大的微调示例，而且可以帮助识别出错误标记的数据点。

Oct, 2023

利用数据影响方法检测源代码语料库中的噪声样本

本文提出了一种采用数据影响方法的方法来检测神经源代码模型中的噪声，研究结果表明数据影响方法可以在分类任务中从神经代码模型中识别出噪声，从而有助于从数据为中心的角度发展更好的神经源代码模型。

May, 2022

有影响力的子集选择用于语言模型的告别漫无目的的大规模预训练

本文提出了一种基于 Influence Subset Selection（ISS）的方法，利用端到端任务知识选择一个较小的语言模型预训练语料库子集，并以较低的计算成本获得与 RoBERTa 等大型预训练模型相媲美的性能。

May, 2023

通过统计检验和自动数据增强解析自然语言推理中的词汇偏见数据集以减少人为影响

通过利用一种新颖的统计测试方法，我们发现词汇分布与文本蕴含类之间存在显著关联，强调词汇是一种明显的偏差源。为了减轻这些问题，我们提出了几种自动数据增强策略，从字符到词级别。通过对 ELECTRA 预训练语言模型进行微调，我们将有增强数据的模型与基准模型进行了比较。实验证明，所提出的方法可以有效提高模型准确性，并分别减少偏差约 0.66% 和 1.14%。

Dec, 2023

利用梯度方差估计示例难度

该论文提出了一种名为 VoG 的评估指标，可以通过评估模型求解困难样本，从而实现模型的可解释性和泛化性能，并在数据样本的噪声和记忆样本方面得到应用。

Aug, 2020

通过重要性重采样进行语言模型数据选择

本文介绍了一种基于重要性重采样的数据选择算法，该算法可以在减少特征空间的基础上从大型无标签数据集中选择与目标分布匹配的样本子集。在训练通用领域（例如维基百科）和特定领域的语言模型时，该算法能够显着提高模型的性能。

Feb, 2023

数据低基变压器：基于梯度裁剪的重要实例查找

在该论文中，我们首次将 GraNd 和 EL2N 这两个用于发现重要样本的梯度基于评分指标，应用于 NLP，证明了我们可以通过剪枝训练集中最高 GraNd / EL2N 得分的一小部分样本，不仅可以保持测试准确性，而且可以超越它。

Nov, 2022