分类应用中衡量数据质量的新度量方法(扩展版本)
现代计算机视觉基础模型是在大量数据的基础上进行训练的,这带来了巨大的经济和环境成本。最近的研究表明,提高数据质量可以显著减少对数据数量的需求。但是,在计算机视觉中,什么构成数据质量?我们认为,给定数据集的质量可以分解为不同的样本级和数据集级成分,而前者比后者得到了更深入的研究。我们通过监控这些成分,利用我们提供的关键指标,研究人员和实践者可以更好地预测模型的性能,以其准确性和对分布变化的鲁棒性来衡量。
Nov, 2023
机器学习中数据质量评估工具的回顾与比较,提出了开源数据质量工具发展的路线图,并探讨了大型语言模型和生成式人工智能在数据质量评估和改进中的潜在应用。
Jun, 2024
本文提出了一种用于对大型未标记 NLP 数据集中的文本质量进行数值评估的新方法,以分配给文本实例一个 “质量分数”。通过提出文本质量度量标准,本文建立了一个框架来识别和消除低质量的文本实例,提高了 LM 模型的训练效率。实验结果表明,通过这种方法,在多个模型和数据集上可以获得显著的训练效果提升,并展示了资源高效的 LM 训练的潜力。例如,在使用 OpenWebText 数据集进行训练时,相对于较少的数据量和较快的训练速度,多个 LM 模型在 14 个下游评估任务上的平均绝对准确性提高了 0.9%,在使用 Wikipedia 数据集时,平均绝对准确性提高了 0.8%。
Apr, 2024
本文提出了一个自动化框架来测量数据分布对自然语言处理模型性能和评估的影响,并通过两组实验表明数据的分布对评估具有统计学上的重要性,并且可预测模型的泛化能力。
Mar, 2024
通过系统评估医学数据集合,我们提出了 METRIC 框架,该框架包含了 15 个数据质量意识维度,帮助减少偏见、增加稳健性、提高可解释性,从而为医学中可信赖的人工智能奠定了基础。
Feb, 2024
高数据质量的重要性随着机器学习系统和大数据的影响和分布而增加。欧洲委员会提出的计划的 AI 法案特别针对与安全相关的机器学习系统的市场引入,定义了具有挑战性的数据质量法律要求。本文介绍了一种新的方法,支持多种数据质量方面的数据质量保证过程。该方法可以验证定量数据质量要求。通过小的示例数据集介绍和解释了该概念和好处。通过对著名的 MNIST 数据集进行基于手写数字的应用演示了该方法的应用。
Jul, 2023