朝着增强的数据质量管理:数据仓库中数据质量规则定义的自动化
数据驱动的人工智能系统和机器学习对我们的生活产生了巨大的影响,然而在边缘计算和物联网设备的环境下,数据质量的研究变得异常重要和紧迫。本文填补了这一领域的知识空白,提供了全球范围内从多个学科角度探讨边缘计算中数据质量的现有文献,并探讨了各个维度的详细内容和现有解决方案。
Jun, 2024
该研究论文提出了一套新的互联框架,旨在全面提升大数据质量,包括引入新的质量指标和加权评分系统,采用人工智能模型检测各种质量异常,以及通过预测建模纠正检测到的异常,并着重讨论了在大数据生态系统中提高元数据质量的创新框架。
May, 2024
高数据质量的重要性随着机器学习系统和大数据的影响和分布而增加。欧洲委员会提出的计划的 AI 法案特别针对与安全相关的机器学习系统的市场引入,定义了具有挑战性的数据质量法律要求。本文介绍了一种新的方法,支持多种数据质量方面的数据质量保证过程。该方法可以验证定量数据质量要求。通过小的示例数据集介绍和解释了该概念和好处。通过对著名的 MNIST 数据集进行基于手写数字的应用演示了该方法的应用。
Jul, 2023
本文探讨了机器学习分类任务中数据集质量评估的重要性,并提出了一个综合性框架进行数据集质量评估,旨在帮助研究人员和实践者评估数据集是否足够且具有特定任务所需的质量。
Jun, 2023
文章调研了自然语言数据集创作的质量管理实践,分析了 591 个科学出版物并发现了其普遍存在的错误和 30% 的工作只达到了次级水平,尤其在使用标注错误率和计算注释错误率方面存在常见错误。
Jul, 2023
本研究通过全面实验,旨在探讨数据质量评估和数据调整两种重要策略对抗模型漂移的效果,以提高语义分割模型的性能和可靠性,从而推动计算机视觉在实际场景中的发展。
Feb, 2024
本研究为了解决工业生产系统中机器学习模型的质量检验问题,提出了基于模块化策略的数据完整性及数据质量的质量保证方法,并以工业合作案例为支撑,还提出了未来研究的几个挑战。
Nov, 2022
提出了 Auto-Validate-by-History (AVH) 算法,该算法能够自动检测经常性的数据管道中的数据质量问题。在 Microsoft 的 2000 个生产数据管道的评估中表现出了其效果和效率。
Jun, 2023