AI 数据准备：360 度调查

Apr, 2024

Data Readiness for AI: A 360-Degree Survey

Kaveen Hiniduma, Suren Byna, Jean Luca Bez

TL;DR通过全面调查和分析超过 120 篇学术论文及 AI 专家的文章，本研究提出了对结构化和非结构化数据集的 AI 数据就绪度 (DRAI) 测量指标的分类法，旨在为 AI 训练的质量和准确性提供新的标准。

Abstract

Data are the critical fuel for Artificial Intelligence (AI) models. Poor quality data produces inaccurate and ineffective ai models that may lead to incorrect or unsafe use. Checking for data readiness is a cruci

data readiness metrics ai models data quality taxonomy

发现论文，激发创造

AI 数据准备检核员 (AIDRIN) 用于评估数据对人工智能的准备情况

评估数据准备就绪性的 AI 数据准备度量框架 AIDRIN 可量化地评估数据的准备就绪性，并通过指标和可视化报告提高机器学习流程的效率，以便在 AI 应用中做出明智决策。

Jun, 2024

收集，测量，重复：负责任人工智能数据收集的可靠性因素

在这篇论文中，我们提出了一种负责任的人工智能（RAI）方法，旨在通过一套指标对数据进行迭代深入分析，从而引导数据收集并影响应用于现实世界中多样用户和内容的人工智能的数据鲁棒性评估。

Aug, 2023

边缘机器学习中的数据质量：现状调研

数据驱动的人工智能系统和机器学习对我们的生活产生了巨大的影响，然而在边缘计算和物联网设备的环境下，数据质量的研究变得异常重要和紧迫。本文填补了这一领域的知识空白，提供了全球范围内从多个学科角度探讨边缘计算中数据质量的现有文献，并探讨了各个维度的详细内容和现有解决方案。

Jun, 2024

评估可信 AI 医学数据质量的 METRIC 框架：一项系统综述

通过系统评估医学数据集合，我们提出了 METRIC 框架，该框架包含了 15 个数据质量意识维度，帮助减少偏见、增加稳健性、提高可解释性，从而为医学中可信赖的人工智能奠定了基础。

Feb, 2024

数据中心的人工智能：一项调查

本文综述了数据驱动人工智能的必要性，以及针对训练数据开发、推理数据开发和数据维护三个方面的代表性方法，同时讨论了该领域的挑战和各种任务的基准，并提供了一份数据驱动人工智能资源列表。

Mar, 2023

大数据生态系统中提升数据质量的 AI 驱动框架：错误检测、修正和元数据集成

该研究论文提出了一套新的互联框架，旨在全面提升大数据质量，包括引入新的质量指标和加权评分系统，采用人工智能模型检测各种质量异常，以及通过预测建模纠正检测到的异常，并着重讨论了在大数据生态系统中提高元数据质量的创新框架。

May, 2024

AI 的数据卓越：你为什么应该关心

这篇论文探讨了机器学习模型的有效性，强调了数据的重要性以及对数据进行优化以提高模型效果的必要性，并指出需要将关注点从算法改进转移到数据的优化。

Nov, 2021

以数据为中心的人工智能：观点与挑战

本文讨论了数据在构建 AI 系统中的作用，强调了数据质量和可靠性的重要性。作者提出三个任务：培训数据开发、评估数据开发和数据维护，并列举了一些挑战和展望。

Jan, 2023

开放数据表：机器可读的开放数据集文档和负责任的人工智能评估

介绍了一种无代码、机器可读的开放数据集文档框架，关注负责任的人工智能考虑。旨在提高开放数据集的可访问性、可理解性和可用性，促进更容易发现和使用、更好理解内容和背景以及评估数据集的质量和准确性。该框架旨在简化数据集评估，帮助研究人员、数据科学家和其他开放数据用户快速识别满足其需求和 / 或组织政策或法规的数据集。论文还讨论了该框架的实施，并提供了最大化其潜力的建议。预期该框架将提高研究和决策中使用的数据的质量和可靠性，促进更负责任和值得信赖的人工智能系统的发展。

Dec, 2023

关于具有公平性、隐私和监管规范的负责任机器学习数据集

在当前人工智能时代，本研究讨论了负责任的机器学习数据集的重要性，并提出了一个评估数据集的负责任框架。通过公平性、隐私保护和合规性等方面的考虑，我们分析了超过 100 个数据集，发现没有一个数据集能免于公平性、隐私保护和合规性问题。我们对数据集的文档化提供了改进建议，并认为在全球范围内的数据保护法规定下，科学界的数据集创建方法需要修订。

Oct, 2023