Jan, 2024

在AI中浏览数据集文档:对Hugging Face上数据集卡片的大规模分析

TL;DR通过对 Hugging Face 平台上的 7,433 份数据集文档进行分析,本研究提供了 Hugging Face 数据集生态系统的概述和数据集文档实践的见解,得出了5个主要发现:(1)数据集卡完成率存在显著的异质性,并与数据集的受欢迎程度相关;(2)对数据集卡中的每个部分进行细致的研究发现,从业者似乎优先考虑数据集描述和数据集结构部分,而使用数据部分的内容比例最低;(3)通过分析每个部分中的子部分,并利用主题建模方法识别关键主题,我们发现了每个部分讨论的内容,并强调了技术和社会影响以及使用数据部分的局限性;(4)我们的研究还强调了在使用部分中提高数据集可访问性和可复现性的需要;(5)此外,我们的人工标注评估强调了全面数据集内容对于塑造个人对数据集卡整体质量看法的重要作用。总体而言,本研究通过大规模数据科学分析提供了对数据集文档的独特视角,并强调了机器学习研究中更加全面的数据集文档需求。