数据选择的熵和边缘得分指标的全面基准评估

Nov, 2023

数据选择的熵和边缘得分指标的全面基准评估

Comprehensive Benchmarking of Entropy and Margin Based Scoring Metrics for Data Selection

Anusha Sabbineni, Nikhil Anand, Maria Minakova

TL;DR在工业规模的环境中，特别是在资源有限的语言中，我们通过熵和 EL2N 评分来评估潜在的训练样本的 “有用性” 或 “难度”，并展示了如何使用这些度量来选择用于训练监督机器学习模型的重要样本。我们使用这些度量从大量的 “弱信号标记” 数据中筛选高质量的数据集，然后进行以评分为基础的选择来增强训练数据实验，与随机选择的基线技术相比，结果显示了语义错误率下降 2% 和领域分类错误率下降 4%-7%。

Abstract

While data selection methods have been studied extensively in active learning, data pruning, and data augmentation settings, there is little evidence for the efficacy of these methods in industry scale settings,

data selection methods industry scale settings low-resource languages supervised machine learning models training data augmentation experiments

发现论文，激发创造

数据低基变压器：基于梯度裁剪的重要实例查找

在该论文中，我们首次将 GraNd 和 EL2N 这两个用于发现重要样本的梯度基于评分指标，应用于 NLP，证明了我们可以通过剪枝训练集中最高 GraNd / EL2N 得分的一小部分样本，不仅可以保持测试准确性，而且可以超越它。

Nov, 2022

数据减肥下的深度学习：在训练早期找到重要例子

本文介绍了一种利用 Gradient Normed (GraNd) 和 Error L2-Norm (EL2N) 这两个简单的得分标准来识别深度学习中最重要的数据训练样本，并进行数据修剪以提高模型效果的方法，同时研究了数据分布对模型损失面的影响及模型中比较稳定的数据表示子空间等训练动态。

Jul, 2021

多语言少样本转移数据选择的关键是模型中的多样化和不确定性

本文探索了各种数据选择策略，依靠多个度量，利用了渐变嵌入和损失嵌入方法，以提高针对多语言预训练模型的 POS 标记、NER 和 NLI 任务的 Few-shot 迁移的性能。实验证明，所提出的方法始终优于随机数据选择基线，即使仅使用更少的标记数据进行零 - shot 迁移，也能显著提高性能。

Jun, 2022

当少即是多：探究大规模预训练 LLMs 的数据修剪

通过比较数据质量的简单估算方法困惑度和更复杂、计算密集的评估方法的错误 L2 范数和记忆化，我们发现困惑度方法在去除数据噪声和提升预训练数据集质量方面具有较好的效果。我们能够在仅使用原始训练数据的 30% 进行训练的情况下，改进我们的基准模型，这为自动筛选高质量数据集提供了新的方法论，并表明大部分的预训练数据可被删除而保持性能。

Sep, 2023

高效语言数据抽样的规模化影响分数

应用影响力分数评估语言分类任务，通过修剪训练数据来量化准确性变化，并提供基于分数采样的建议，以提高准确性和训练效率。

Nov, 2023

数据饮食中的 NLU: 动态数据子集选择用于 NLP 分类任务

本研究提出了一种基于动态数据修剪的方法，使用 EL2N 度量和初始微调阶段，在保持完整准确性的同时，可将数据量减少 50%~80% 以大大减少微调时间，并在 GLUE 基准测试和四个联合 NLU 数据集上展现出更好的时间 - 准确性平衡。

Jun, 2023

如何选择形态变化数据

本篇论文研究了对于低资源语言的狭缺数据问题，通过使用主动学习方法，基于置信度、熵等策略选择最具信息的数据进行更准确的模型训练，实验证明这种方法可以显著提高模型性能。

Oct, 2022

为少样本示例选择设计信息指标

我们提出了一种基于复杂性的提示选择方法，用于序列标注任务，该方法通过某些度量标准来对齐测试句子和示例的句法语义复杂性，从而提高预训练语言模型的性能。

Mar, 2024

如何为文本数据增广选择 “好” 的样本

本文提出了一种基于数据增强的自训练样本选择框架，使用熵和模型预测作为选择器，结合单词重叠和语义相似性来筛选高质量的样本。实验结果表明该框架是有效和简单的。

Feb, 2023

通过数据选择探索实世界图像分类中的数据冗余

提出了两种基于神经突触智能和梯度范数的数据估值指标，通过在线聚类和基于考察数据值的分组提出了新的数据选择算法。在线方法使用逐层模型参数更新和每个时期梯度高效地评估数据，可以使用更少的时期和数据子集（例如，19％-59％）加速模型训练，同时在各种数据集中保持等价的水平，还可以扩展到离线 Coreset 构建，只生成原始数据的 18％-30％子集。

Jun, 2023