机器学习研究中的 “文档债务”：《BookCorpus》回顾性数据表

May, 2021

机器学习研究中的 “文档债务”：《BookCorpus》回顾性数据表

Addressing "Documentation Debt" in Machine Learning Research: A Retrospective Datasheet for BookCorpus

Jack Bandy, Nicholas Vincent

TL;DR本文旨在帮助解决 BookCorpus 数据集的文档债务问题，提供初步数据表，揭示了该数据集存在违反版权限制、大量重复书籍以及流派偏差等问题，并呼吁更加注意和系统化的机器学习数据集文档化工作。

Abstract

Recent literature has underscored the importance of dataset documentation work for machine learning, and part of this work involves addressing "documentation debt" for datasets that have been used widely but documented sparsely. This paper aims to help address documentation debt for

dataset documentation bookcorpus copyright restrictions genre representation machine learning datasets

发现论文，激发创造

在 AI 中浏览数据集文档：对 Hugging Face 上数据集卡片的大规模分析

通过对 Hugging Face 平台上的 7,433 份数据集文档进行分析，本研究提供了 Hugging Face 数据集生态系统的概述和数据集文档实践的见解，得出了 5 个主要发现：（1）数据集卡完成率存在显著的异质性，并与数据集的受欢迎程度相关；（2）对数据集卡中的每个部分进行细致的研究发现，从业者似乎优先考虑数据集描述和数据集结构部分，而使用数据部分的内容比例最低；（3）通过分析每个部分中的子部分，并利用主题建模方法识别关键主题，我们发现了每个部分讨论的内容，并强调了技术和社会影响以及使用数据部分的局限性；（4）我们的研究还强调了在使用部分中提高数据集可访问性和可复现性的需要；（5）此外，我们的人工标注评估强调了全面数据集内容对于塑造个人对数据集卡整体质量看法的重要作用。总体而言，本研究通过大规模数据科学分析提供了对数据集文档的独特视角，并强调了机器学习研究中更加全面的数据集文档需求。

Jan, 2024

数据集的数据表

为了解决机器学习数据集缺乏标准化过程带来的严重后果，我们提出了数据集的数据表格，以促进数据集创建者和数据集使用者之间的更好沟通，并鼓励机器学习社区优先考虑透明度和责任性。

Mar, 2018

机器学习从业者数据文档化的认知、需求、挑战与需求

通过对 14 位机器学习从业者的半结构化访谈，发现目前数据文档化方法在性质上往往是临时性和目光短浅的，因此需要一种适应他们的上下文、与他们现有的工具和工作流程相结合、并在可能的情况下自动完成的数据文档化框架的设计要求，以解决现有文档化方法无法满足其需求的问题。

Jun, 2022

第三方机器学习模型和数据集的文档实践现状

本研究使用统计分析和混合卡片排序评估了 Hugging Face 模型存储库中模型卡片和数据集卡片的记录实践，发现只有 39.62% 的模型和 28.48% 的数据集有文档记录，同时还观察到 ML 模型和数据集的伦理和透明度相关文档存在不一致性。

Dec, 2023

数据及其 (不) 内容：机器学习研究中数据集开发与使用调查

本文综述了在机器学习中收集和使用数据的许多问题和担忧，并提倡通过更谨慎和深入的数据理解来解决实践和伦理问题。

Dec, 2020

计算语言学文档实验用的极低资源语音语料库

这篇论文介绍了一个收集自非洲 Bantu C25 语族中的一种语言 Mboshi 的语音语料库，在几乎零的资源条件下构建了该语料库，并利用其中的数据完成了口语术语发现。该论文讨论了如何收集，清理和处理数据，并将该数据集提供给社区进行可重现的计算语言文献研究和评估。

Oct, 2017

记录大型 Webtext 语料库：以 Colossal Clean Crawled Corpus 为案例研究

本文介绍了 Colossal Clean Crawled Corpus ，并探讨数据来源、数据包含信息、筛选数据的影响，发现了机器翻译的生成文本和少数族裔个体的数据被过滤，最后提出了从互联网抓取信息构建大规模数据集的建议。

Apr, 2021

BookSum：用于长篇叙述摘要的数据集合集

本研究介绍了一种新的包含长型叙述文本的数据集 BookSum。这个数据集覆盖了文学领域的原始文件，并包含三种难度递增的高度抽象的人工撰写的摘要，涵盖段落、章节和整本书的水平。通过该任务的训练和测试，本研究基于此数据集建立了多个抽取和摘要式自动文摘模型。

May, 2021

DocBank: 一个文档布局分析基准数据集

本文介绍了 DocBank，一个包含 500K 篇文档页面的基准数据集，其中包含细粒度的令牌级别的注释，用于文档布局分析的多模态方法的性能提高研究。实验结果表明，使用 DocBank 训练出的模型可以准确识别各种不同类型的文档的布局信息。

Jun, 2020

关于科学数据在机器学习中的公平透明使用准备情况

通过分析 4041 篇不同领域的数据论文，本研究提出了一套建议指南，旨在增加数据的准备性，确保其在机器学习技术中的透明和公正使用。

Jan, 2024