分类应用中衡量数据质量的新度量方法（扩展版本）

Dec, 2023

分类应用中衡量数据质量的新度量方法（扩展版本）

A Novel Metric for Measuring Data Quality in Classification Applications (extended version)

Jouseau Roxane, Salva Sébastien, Samir Chafik

TL;DR介绍并解释一种基于分类性能和数据退化的相关演变来度量数据质量的新指标，该方法具有模型无关性，并通过大量的数值实验以及具有可控和可解释质量的案例详细验证了所提出度量标准的实用性。

Abstract

data quality is a key element for building and optimizing good learning models. Despite many attempts to characterize data quality, there is still a need for rigorous →

data quality learning models formalization metric machine learning

发现论文，激发创造

探索数据质量的数据集规模指标

现代计算机视觉基础模型是在大量数据的基础上进行训练的，这带来了巨大的经济和环境成本。最近的研究表明，提高数据质量可以显著减少对数据数量的需求。但是，在计算机视觉中，什么构成数据质量？我们认为，给定数据集的质量可以分解为不同的样本级和数据集级成分，而前者比后者得到了更深入的研究。我们通过监控这些成分，利用我们提供的关键指标，研究人员和实践者可以更好地预测模型的性能，以其准确性和对分布变化的鲁棒性来衡量。

Nov, 2023

衡量训练数据质量的拓扑方法

本文提出了一种基于持续模块之间的同态的新拓扑方法，以衡量训练数据的质量，并解释为什么所选的训练数据集将导致性能不佳，从而提出使用小型训练数据集来加快训练。

Jun, 2023

衡量可解释性方法质量的解释质量评分

该研究提出了一种新的用于评估解释可能性方法生成的解释质量的度量标准，并利用六种解释可能性方法在三个 NLP 任务上计算和展示了度量标准的结果。

May, 2022

分类器数据质量：一种基于几何复杂度的自动基线和见解生成方法

该研究开发了复杂度量度，可用于量化观测数据的分类复杂度并确定基准性能阈值，其有效突出可能被错误分类的数据区域和观测数据。

Dec, 2021

关于机器学习数据质量维度与工具的调研

机器学习中数据质量评估工具的回顾与比较，提出了开源数据质量工具发展的路线图，并探讨了大型语言模型和生成式人工智能在数据质量评估和改进中的潜在应用。

Jun, 2024

基于文本质量的修剪方法用于语言模型的高效训练

本文提出了一种用于对大型未标记 NLP 数据集中的文本质量进行数值评估的新方法，以分配给文本实例一个 “质量分数”。通过提出文本质量度量标准，本文建立了一个框架来识别和消除低质量的文本实例，提高了 LM 模型的训练效率。实验结果表明，通过这种方法，在多个模型和数据集上可以获得显著的训练效果提升，并展示了资源高效的 LM 训练的潜力。例如，在使用 OpenWebText 数据集进行训练时，相对于较少的数据量和较快的训练速度，多个 LM 模型在 14 个下游评估任务上的平均绝对准确性提高了 0.9%，在使用 Wikipedia 数据集时，平均绝对准确性提高了 0.8%。

Apr, 2024

基准透明度：测量数据对评估的影响

本文提出了一个自动化框架来测量数据分布对自然语言处理模型性能和评估的影响，并通过两组实验表明数据的分布对评估具有统计学上的重要性，并且可预测模型的泛化能力。

Mar, 2024

质量进出：评估异常检测基准数据的质量

本文通过对一个用于异常检测的基于流量的真实数据集进行修改，发现相对较小的修改对模型性能的影响，强调了数据质量评估和优化技术对于自主网络的重要性。

May, 2023

评估可信 AI 医学数据质量的 METRIC 框架：一项系统综述

通过系统评估医学数据集合，我们提出了 METRIC 框架，该框架包含了 15 个数据质量意识维度，帮助减少偏见、增加稳健性、提高可解释性，从而为医学中可信赖的人工智能奠定了基础。

Feb, 2024

QI2 数据质量保证的交互式工具

高数据质量的重要性随着机器学习系统和大数据的影响和分布而增加。欧洲委员会提出的计划的 AI 法案特别针对与安全相关的机器学习系统的市场引入，定义了具有挑战性的数据质量法律要求。本文介绍了一种新的方法，支持多种数据质量方面的数据质量保证过程。该方法可以验证定量数据质量要求。通过小的示例数据集介绍和解释了该概念和好处。通过对著名的 MNIST 数据集进行基于手写数字的应用演示了该方法的应用。

Jul, 2023