本文旨在将计量科学应用于人力(群体)评估中,以加强测量人工智能系统性能的科学,并以词汇相似性基准 WS353 和先前发布的使用它进行评估的实验为例,采用计量学来对基准数据集进行基准测试。
Nov, 2019
发展机器学习数据集的方法论和实践经验,涵盖数据准备、集合、质量评估等方面。
Apr, 2024
这篇论文探讨了机器学习模型的有效性,强调了数据的重要性以及对数据进行优化以提高模型效果的必要性,并指出需要将关注点从算法改进转移到数据的优化。
Nov, 2021
在这篇论文中,我们提出了一种负责任的人工智能(RAI)方法,旨在通过一套指标对数据进行迭代深入分析,从而引导数据收集并影响应用于现实世界中多样用户和内容的人工智能的数据鲁棒性评估。
Aug, 2023
本文综述了在机器学习中收集和使用数据的许多问题和担忧,并提倡通过更谨慎和深入的数据理解来解决实践和伦理问题。
Dec, 2020
介绍并解释一种基于分类性能和数据退化的相关演变来度量数据质量的新指标,该方法具有模型无关性,并通过大量的数值实验以及具有可控和可解释质量的案例详细验证了所提出度量标准的实用性。
Dec, 2023
现代计算机视觉基础模型是在大量数据的基础上进行训练的,这带来了巨大的经济和环境成本。最近的研究表明,提高数据质量可以显著减少对数据数量的需求。但是,在计算机视觉中,什么构成数据质量?我们认为,给定数据集的质量可以分解为不同的样本级和数据集级成分,而前者比后者得到了更深入的研究。我们通过监控这些成分,利用我们提供的关键指标,研究人员和实践者可以更好地预测模型的性能,以其准确性和对分布变化的鲁棒性来衡量。
Nov, 2023
机器学习中数据质量评估工具的回顾与比较,提出了开源数据质量工具发展的路线图,并探讨了大型语言模型和生成式人工智能在数据质量评估和改进中的潜在应用。
Jun, 2024
本文提出了一个自动化框架来测量数据分布对自然语言处理模型性能和评估的影响,并通过两组实验表明数据的分布对评估具有统计学上的重要性,并且可预测模型的泛化能力。
Mar, 2024
数据驱动的人工智能系统和机器学习对我们的生活产生了巨大的影响,然而在边缘计算和物联网设备的环境下,数据质量的研究变得异常重要和紧迫。本文填补了这一领域的知识空白,提供了全球范围内从多个学科角度探讨边缘计算中数据质量的现有文献,并探讨了各个维度的详细内容和现有解决方案。