机器学习研究中的 “文档债务”:《BookCorpus》回顾性数据表
通过对 Hugging Face 平台上的 7,433 份数据集文档进行分析,本研究提供了 Hugging Face 数据集生态系统的概述和数据集文档实践的见解,得出了 5 个主要发现:(1)数据集卡完成率存在显著的异质性,并与数据集的受欢迎程度相关;(2)对数据集卡中的每个部分进行细致的研究发现,从业者似乎优先考虑数据集描述和数据集结构部分,而使用数据部分的内容比例最低;(3)通过分析每个部分中的子部分,并利用主题建模方法识别关键主题,我们发现了每个部分讨论的内容,并强调了技术和社会影响以及使用数据部分的局限性;(4)我们的研究还强调了在使用部分中提高数据集可访问性和可复现性的需要;(5)此外,我们的人工标注评估强调了全面数据集内容对于塑造个人对数据集卡整体质量看法的重要作用。总体而言,本研究通过大规模数据科学分析提供了对数据集文档的独特视角,并强调了机器学习研究中更加全面的数据集文档需求。
Jan, 2024
为了解决机器学习数据集缺乏标准化过程带来的严重后果,我们提出了数据集的数据表格,以促进数据集创建者和数据集使用者之间的更好沟通,并鼓励机器学习社区优先考虑透明度和责任性。
Mar, 2018
通过对 14 位机器学习从业者的半结构化访谈,发现目前数据文档化方法在性质上往往是临时性和目光短浅的,因此需要一种适应他们的上下文、与他们现有的工具和工作流程相结合、并在可能的情况下自动完成的数据文档化框架的设计要求,以解决现有文档化方法无法满足其需求的问题。
Jun, 2022
本研究使用统计分析和混合卡片排序评估了 Hugging Face 模型存储库中模型卡片和数据集卡片的记录实践,发现只有 39.62% 的模型和 28.48% 的数据集有文档记录,同时还观察到 ML 模型和数据集的伦理和透明度相关文档存在不一致性。
Dec, 2023
这篇论文介绍了一个收集自非洲 Bantu C25 语族中的一种语言 Mboshi 的语音语料库,在几乎零的资源条件下构建了该语料库,并利用其中的数据完成了口语术语发现。该论文讨论了如何收集,清理和处理数据,并将该数据集提供给社区进行可重现的计算语言文献研究和评估。
Oct, 2017
本文介绍了 Colossal Clean Crawled Corpus ,并探讨数据来源、数据包含信息、筛选数据的影响,发现了机器翻译的生成文本和少数族裔个体的数据被过滤,最后提出了从互联网抓取信息构建大规模数据集的建议。
Apr, 2021
本研究介绍了一种新的包含长型叙述文本的数据集 BookSum。这个数据集覆盖了文学领域的原始文件,并包含三种难度递增的高度抽象的人工撰写的摘要,涵盖段落、章节和整本书的水平。通过该任务的训练和测试,本研究基于此数据集建立了多个抽取和摘要式自动文摘模型。
May, 2021
本文介绍了 DocBank,一个包含 500K 篇文档页面的基准数据集,其中包含细粒度的令牌级别的注释,用于文档布局分析的多模态方法的性能提高研究。实验结果表明,使用 DocBank 训练出的模型可以准确识别各种不同类型的文档的布局信息。
Jun, 2020