DataPerf: 面向数据中心 AI 开发的基准测试
数据驱动科学是一种新兴的范例,其中科学发现取决于针对具体学科的丰富数据集执行计算 AI 模型。通过现代机器学习框架,任何人都可以开发和执行计算模型,揭示隐藏在数据中的概念,从而可能支持科学应用。然而,在实际应用中,收集并计算每个可以运行的计算模型的性能代价昂贵。由于使用代表性数据集来推断性能的基准测试方法具有局限性,每个数据集都具有独特的特征,这需要引入数据集配置文件来作为模型选择过程的一部分,以选择最佳模型进行优化。
Aug, 2022
本文介绍了一个可访问、策划和开发的公共基准资源,用于促进不同机器学习方法的优缺点的识别。我们比较了这一资源中当前一组基准数据集的元特征,以表征可用数据的多样性。最后,我们应用了一些已经建立的机器学习方法到整个基准套件,并分析数据集和算法在性能方面是如何聚类的。该工作是了解流行基准套件的限制并开发将现有的基准标准与未来更多样化和有效标准相连接的资源的重要第一步。
Mar, 2017
本文研究各机器学习子社区在 2015-2020 年期间数据集使用模式的差异,并发现技术社区对越来越少的数据集集中使用,大量采用来自其他任务的数据集,并集中于由少数精英机构研究者推出的数据集,从而对科学评估、人工智能伦理和公平性、以及领域内的平等 / 可接近性产生影响。
Dec, 2021
通过深入文献和在线资源的系统性研究,我们编制并发布了一个全面的与临床和生物医学自然语言处理(NLP)广泛领域相关的数据集和基准目录,对 450 个 NLP 数据集进行了手动系统化和注释处理,并与跨医疗应用的相关任务进行了比较,结果显示,当前可用的人工智能基准测试不同于希望在临床环境中进行人工智能自动化的任务,因此需要创建新的基准测试以填补这些差距。
Jan, 2022
通过对当前数据市场的调查,揭示了缺乏提供有关数据集的详细信息、透明定价和标准化数据格式的平台,进而提出了基于数据提供者和获取者之间互动建模的 DAM 挑战,验证了在机器学习中有效的数据获取策略的需求。
Nov, 2023