AI 数据准备检核员 (AIDRIN) 用于评估数据对人工智能的准备情况

Jun, 2024

AI 数据准备检核员 (AIDRIN) 用于评估数据对人工智能的准备情况

AI Data Readiness Inspector (AIDRIN) for Quantitative Assessment of Data Readiness for AI

Kaveen Hiniduma, Suren Byna, Jean Luca Bez, Ravi Madduri

TL;DR评估数据准备就绪性的 AI 数据准备度量框架 AIDRIN 可量化地评估数据的准备就绪性，并通过指标和可视化报告提高机器学习流程的效率，以便在 AI 应用中做出明智决策。

Abstract

"garbage in garbage out" is a universally agreed quote by computer scientists from various domains, including Artificial Intelligence (ai). As data is the fuel for →

garbage in garbage out data readiness ai aidrin machine learning pipeline

发现论文，激发创造

AI 数据准备：360 度调查

通过全面调查和分析超过 120 篇学术论文及 AI 专家的文章，本研究提出了对结构化和非结构化数据集的 AI 数据就绪度 (DRAI) 测量指标的分类法，旨在为 AI 训练的质量和准确性提供新的标准。

Apr, 2024

大规模事故响应的异常检测

我们提出了一种基于机器学习的异常检测产品 ——AI Detect and Respond (AIDR)，它能够实时监测沃尔玛的业务和系统健康状况。在验证期间，该产品使用超过 3000 个模型为 25 个应用程序、平台和运营团队提供了预测，覆盖了 63% 的重大事件，并将平均检测时间 (MTTD) 缩短了 7 分钟以上。与以往的异常检测方法不同，我们的解决方案利用统计学、机器学习和深度学习模型，同时继续使用基于规则的静态阈值来整合领域特定知识。单变量和多变量机器学习模型通过分布式服务部署和维护，以实现可伸缩性和高可用性。AIDR 具有反馈循环，借助漂移检测算法和用户反馈来评估模型质量。它还提供自助入门功能和可定制性。与以前的方法相比，AIDR 在各个内部团队中都取得了成功，其检测时间更短，误报较少。在未来，我们的目标是扩大事故覆盖和预防范围，减少噪音，并与根本原因推荐 (RCR) 进一步整合，实现端到端的 AIDR 体验。

Apr, 2024

收集，测量，重复：负责任人工智能数据收集的可靠性因素

在这篇论文中，我们提出了一种负责任的人工智能（RAI）方法，旨在通过一套指标对数据进行迭代深入分析，从而引导数据收集并影响应用于现实世界中多样用户和内容的人工智能的数据鲁棒性评估。

Aug, 2023

公平 AI 的数据质量维度

本文讨论了人工智能系统中的偏见问题，尤其是在涉及人类时，AI 算法反映了由于错误标记的数据来源的技术性误差。作者提出了通过实施数据质量维度以减轻偏见分类错误的潜在改进，涉及到两种性别：非二元性和跨性别者的分类。

May, 2023

开放数据表：机器可读的开放数据集文档和负责任的人工智能评估

介绍了一种无代码、机器可读的开放数据集文档框架，关注负责任的人工智能考虑。旨在提高开放数据集的可访问性、可理解性和可用性，促进更容易发现和使用、更好理解内容和背景以及评估数据集的质量和准确性。该框架旨在简化数据集评估，帮助研究人员、数据科学家和其他开放数据用户快速识别满足其需求和 / 或组织政策或法规的数据集。论文还讨论了该框架的实施，并提供了最大化其潜力的建议。预期该框架将提高研究和决策中使用的数据的质量和可靠性，促进更负责任和值得信赖的人工智能系统的发展。

Dec, 2023

IBADR: 一个迭代的认知偏差数据修正框架用于消除 NLU 模型的偏见

本研究提出了 IBADR，一种迭代的偏差感知数据集优化框架，它在不预定义偏差特征的情况下对 NLU 模型进行去偏。实验结果和深入分析表明，IBADR 不仅显著优于现有的数据集优化方法，达到 SOTA，还与以模型为中心的方法兼容。

Nov, 2023

大数据生态系统中提升数据质量的 AI 驱动框架：错误检测、修正和元数据集成

该研究论文提出了一套新的互联框架，旨在全面提升大数据质量，包括引入新的质量指标和加权评分系统，采用人工智能模型检测各种质量异常，以及通过预测建模纠正检测到的异常，并着重讨论了在大数据生态系统中提高元数据质量的创新框架。

May, 2024

QI2 数据质量保证的交互式工具

高数据质量的重要性随着机器学习系统和大数据的影响和分布而增加。欧洲委员会提出的计划的 AI 法案特别针对与安全相关的机器学习系统的市场引入，定义了具有挑战性的数据质量法律要求。本文介绍了一种新的方法，支持多种数据质量方面的数据质量保证过程。该方法可以验证定量数据质量要求。通过小的示例数据集介绍和解释了该概念和好处。通过对著名的 MNIST 数据集进行基于手写数字的应用演示了该方法的应用。

Jul, 2023

边缘机器学习中的数据质量：现状调研

数据驱动的人工智能系统和机器学习对我们的生活产生了巨大的影响，然而在边缘计算和物联网设备的环境下，数据质量的研究变得异常重要和紧迫。本文填补了这一领域的知识空白，提供了全球范围内从多个学科角度探讨边缘计算中数据质量的现有文献，并探讨了各个维度的详细内容和现有解决方案。

Jun, 2024

评估可信 AI 医学数据质量的 METRIC 框架：一项系统综述

通过系统评估医学数据集合，我们提出了 METRIC 框架，该框架包含了 15 个数据质量意识维度，帮助减少偏见、增加稳健性、提高可解释性，从而为医学中可信赖的人工智能奠定了基础。

Feb, 2024