AI 的数据卓越：你为什么应该关心

Nov, 2021

AI 的数据卓越：你为什么应该关心

Data Excellence for AI: Why Should You Care

Lora Aroyo, Matthew Lease, Praveen Paritosh, Mike Schaekermann

TL;DR这篇论文探讨了机器学习模型的有效性，强调了数据的重要性以及对数据进行优化以提高模型效果的必要性，并指出需要将关注点从算法改进转移到数据的优化。

Abstract

The efficacy of machine learning (ML) models depends on both algorithms and data. Training data defines what we want our models to learn, and testing data provides the means by which their empirical progress is m

machine learning data optimization algorithm improvement benchmark datasets efficacy

发现论文，激发创造

AI 竞赛与基准测试：数据集开发

发展机器学习数据集的方法论和实践经验，涵盖数据准备、集合、质量评估等方面。

Apr, 2024

DataPerf: 面向数据中心 AI 开发的基准测试

为了解决机器学习中数据集本质重要性被忽视的问题，本研究提出了 DataPerf，一个用于评估机器学习数据集和算法的基准包，旨在加速数据为中心人工智能开发的发展。

Jul, 2022

边缘机器学习中的数据质量：现状调研

数据驱动的人工智能系统和机器学习对我们的生活产生了巨大的影响，然而在边缘计算和物联网设备的环境下，数据质量的研究变得异常重要和紧迫。本文填补了这一领域的知识空白，提供了全球范围内从多个学科角度探讨边缘计算中数据质量的现有文献，并探讨了各个维度的详细内容和现有解决方案。

Jun, 2024

数据及其 (不) 内容：机器学习研究中数据集开发与使用调查

本文综述了在机器学习中收集和使用数据的许多问题和担忧，并提倡通过更谨慎和深入的数据理解来解决实践和伦理问题。

Dec, 2020

研究提议：“高质量数据是否足够？

本文研究如何选择和创建高质量基准数据的子集以及对于模型的有效学习是否真正需要大型数据集，并计划研究数据修剪和数据创建范式以生成高质量数据。

Mar, 2022

数据有效学习：一项综合医学基准

我们的研究论文针对数据有效学习在医学领域的研究空白，引入了一种全面的基准，用于评估医学领域中的数据有效学习。该基准包括来自 31 个医疗中心的数百万数据样本的数据集（DataDEL），用于对比的基线方法（MedDEL），以及客观衡量数据有效学习性能的新评估指标（NormDEL）。我们广泛的实验结果表明，基线方法 MedDEL 仅使用 5% 的数据就可以达到与原始大数据集相当的性能。建立这样一个开放的数据有效学习基准对医学人工智能研究社区至关重要，因为它促进了高效数据利用、推动协作突破和发展成本效益高、可扩展且有影响力的医疗解决方案。

Jan, 2024

特定数据集分析的案例

数据驱动科学是一种新兴的范例，其中科学发现取决于针对具体学科的丰富数据集执行计算 AI 模型。通过现代机器学习框架，任何人都可以开发和执行计算模型，揭示隐藏在数据中的概念，从而可能支持科学应用。然而，在实际应用中，收集并计算每个可以运行的计算模型的性能代价昂贵。由于使用代表性数据集来推断性能的基准测试方法具有局限性，每个数据集都具有独特的特征，这需要引入数据集配置文件来作为模型选择过程的一部分，以选择最佳模型进行优化。

Aug, 2022

神奇的数据及如何查询它们

本文介绍了一个用于不同数据集整合和查询的统一框架，并在计算机视觉数据集中展示了其在不同情景下的优势。

Jan, 2022

数据测量

本文旨在通过测量数据来量化机器学习数据和数据集的组成部分，以促进机器学习的系统构建和分析，使现代机器学习系统更加准确和可控，同时讨论了未来工作的许多途径、数据测量的局限性，以及如何在研究和实践中利用这些测量方法。

Dec, 2022

数据采集：面向数据中心的人工智能的新领域

通过对当前数据市场的调查，揭示了缺乏提供有关数据集的详细信息、透明定价和标准化数据格式的平台，进而提出了基于数据提供者和获取者之间互动建模的 DAM 挑战，验证了在机器学习中有效的数据获取策略的需求。

Nov, 2023