Dec, 2021

机器学习研究中数据集的生命周期:减少、重复利用和循环利用

TL;DR本文研究各机器学习子社区在 2015-2020 年期间数据集使用模式的差异,并发现技术社区对越来越少的数据集集中使用,大量采用来自其他任务的数据集,并集中于由少数精英机构研究者推出的数据集,从而对科学评估、人工智能伦理和公平性、以及领域内的平等 / 可接近性产生影响。