数据测量

Dec, 2022

Measuring Data

Margaret Mitchell, Alexandra Sasha Luccioni, Nathan Lambert, Marissa Gerchick, Angelina McMillan-Major...

TL;DR本文旨在通过测量数据来量化机器学习数据和数据集的组成部分，以促进机器学习的系统构建和分析，使现代机器学习系统更加准确和可控，同时讨论了未来工作的许多途径、数据测量的局限性，以及如何在研究和实践中利用这些测量方法。

Abstract

We identify the task of measuring data to quantitatively characterize the composition of machine learning data and datasets. Similar to an object's height, width, and volume, data measurements quantify different

measuring data machine learning data attributes responsible ai development ml systems

发现论文，激发创造

人工智能计量学：从基准测试到仪器

本文旨在将计量科学应用于人力（群体）评估中，以加强测量人工智能系统性能的科学，并以词汇相似性基准 WS353 和先前发布的使用它进行评估的实验为例，采用计量学来对基准数据集进行基准测试。

Nov, 2019

AI 竞赛与基准测试：数据集开发

发展机器学习数据集的方法论和实践经验，涵盖数据准备、集合、质量评估等方面。

Apr, 2024

AI 的数据卓越：你为什么应该关心

这篇论文探讨了机器学习模型的有效性，强调了数据的重要性以及对数据进行优化以提高模型效果的必要性，并指出需要将关注点从算法改进转移到数据的优化。

Nov, 2021

收集，测量，重复：负责任人工智能数据收集的可靠性因素

在这篇论文中，我们提出了一种负责任的人工智能（RAI）方法，旨在通过一套指标对数据进行迭代深入分析，从而引导数据收集并影响应用于现实世界中多样用户和内容的人工智能的数据鲁棒性评估。

Aug, 2023

数据及其 (不) 内容：机器学习研究中数据集开发与使用调查

本文综述了在机器学习中收集和使用数据的许多问题和担忧，并提倡通过更谨慎和深入的数据理解来解决实践和伦理问题。

Dec, 2020

分类应用中衡量数据质量的新度量方法（扩展版本）

介绍并解释一种基于分类性能和数据退化的相关演变来度量数据质量的新指标，该方法具有模型无关性，并通过大量的数值实验以及具有可控和可解释质量的案例详细验证了所提出度量标准的实用性。

Dec, 2023

探索数据质量的数据集规模指标

现代计算机视觉基础模型是在大量数据的基础上进行训练的，这带来了巨大的经济和环境成本。最近的研究表明，提高数据质量可以显著减少对数据数量的需求。但是，在计算机视觉中，什么构成数据质量？我们认为，给定数据集的质量可以分解为不同的样本级和数据集级成分，而前者比后者得到了更深入的研究。我们通过监控这些成分，利用我们提供的关键指标，研究人员和实践者可以更好地预测模型的性能，以其准确性和对分布变化的鲁棒性来衡量。

Nov, 2023

关于机器学习数据质量维度与工具的调研

机器学习中数据质量评估工具的回顾与比较，提出了开源数据质量工具发展的路线图，并探讨了大型语言模型和生成式人工智能在数据质量评估和改进中的潜在应用。

Jun, 2024

基准透明度：测量数据对评估的影响

本文提出了一个自动化框架来测量数据分布对自然语言处理模型性能和评估的影响，并通过两组实验表明数据的分布对评估具有统计学上的重要性，并且可预测模型的泛化能力。

Mar, 2024

边缘机器学习中的数据质量：现状调研

数据驱动的人工智能系统和机器学习对我们的生活产生了巨大的影响，然而在边缘计算和物联网设备的环境下，数据质量的研究变得异常重要和紧迫。本文填补了这一领域的知识空白，提供了全球范围内从多个学科角度探讨边缘计算中数据质量的现有文献，并探讨了各个维度的详细内容和现有解决方案。

Jun, 2024