数据集的数据表

Mar, 2018

Datasheets for Datasets

Timnit Gebru, Jamie Morgenstern, Briana Vecchione, Jennifer Wortman Vaughan, Hanna Wallach...

TL;DR为了解决机器学习数据集缺乏标准化过程带来的严重后果，我们提出了数据集的数据表格，以促进数据集创建者和数据集使用者之间的更好沟通，并鼓励机器学习社区优先考虑透明度和责任性。

Abstract

The machine learning community currently has no standardized process for documenting datasets, which can lead to severe consequences in high-stakes domains. To address this gap, we propose →

machine learning datasets datasheets transparency accountability

发现论文，激发创造

机器学习传感器数据表

本文介绍了一种标准的 ML 传感器数据表格模板，重点讨论了其必要组成部分：系统硬件，ML 模型和数据集属性，端到端性能指标以及环境影响。通过提供样例数据表格，突显了它们如何促进传感器数据在 ML 应用中的更好理解和利用，并提供了客观的度量标准以评估和比较系统性能。ML 传感器和其数据表格能够提供更好的隐私、安全、透明度、可解释性、可审计性和用户友好性。最后强调 ML 社区的数据表格需要标准化，以确保对传感器数据的负责和有效的使用。

Jun, 2023

Healthsheet: 健康數據透明化工具的開發

本文介绍了 Healthsheet，一种针对健康特定应用的数据表。该工具的目的是改善关于机器学习健康数据集的创建、使用和维护的文献记录实践。实验研究表明，针对健康特定应用的数据表是很有必要和重要的，并且需要针对特定的应用场景进行具体化和优化。同时，如果更多的文献记录实践能够采用数据表，这将有助于保障机器学习在健康领域应用的公平性和客观性。

Feb, 2022

开放数据表：机器可读的开放数据集文档和负责任的人工智能评估

介绍了一种无代码、机器可读的开放数据集文档框架，关注负责任的人工智能考虑。旨在提高开放数据集的可访问性、可理解性和可用性，促进更容易发现和使用、更好理解内容和背景以及评估数据集的质量和准确性。该框架旨在简化数据集评估，帮助研究人员、数据科学家和其他开放数据用户快速识别满足其需求和 / 或组织政策或法规的数据集。论文还讨论了该框架的实施，并提供了最大化其潜力的建议。预期该框架将提高研究和决策中使用的数据的质量和可靠性，促进更负责任和值得信赖的人工智能系统的发展。

Dec, 2023

数据及其 (不) 内容：机器学习研究中数据集开发与使用调查

本文综述了在机器学习中收集和使用数据的许多问题和担忧，并提倡通过更谨慎和深入的数据理解来解决实践和伦理问题。

Dec, 2020

数据卡片：负责任人工智能的有目的和透明的数据集文档

本文提出了数据卡片 (Data Cards) 的概念以促进人性化的大规模模型开发过程中透明、有目的性和人性化的数据记录方法，数据卡片是必要的用户文档，提供关于机器学习数据各个方面的基本事实的结构化总结。本文描述了将数据卡片落实到实际应用的多种框架，并通过两个案例研究报告了支持领域、组织结构和观众群体的可采用特性，最后总结了 20 个数据卡片的部署经验。

Apr, 2022

机器学习从业者数据文档化的认知、需求、挑战与需求

通过对 14 位机器学习从业者的半结构化访谈，发现目前数据文档化方法在性质上往往是临时性和目光短浅的，因此需要一种适应他们的上下文、与他们现有的工具和工作流程相结合、并在可能的情况下自动完成的数据文档化框架的设计要求，以解决现有文档化方法无法满足其需求的问题。

Jun, 2022

机器学习研究中的 “文档债务”：《BookCorpus》回顾性数据表

本文旨在帮助解决 BookCorpus 数据集的文档债务问题，提供初步数据表，揭示了该数据集存在违反版权限制、大量重复书籍以及流派偏差等问题，并呼吁更加注意和系统化的机器学习数据集文档化工作。

May, 2021

在 AI 中浏览数据集文档：对 Hugging Face 上数据集卡片的大规模分析

通过对 Hugging Face 平台上的 7,433 份数据集文档进行分析，本研究提供了 Hugging Face 数据集生态系统的概述和数据集文档实践的见解，得出了 5 个主要发现：（1）数据集卡完成率存在显著的异质性，并与数据集的受欢迎程度相关；（2）对数据集卡中的每个部分进行细致的研究发现，从业者似乎优先考虑数据集描述和数据集结构部分，而使用数据部分的内容比例最低；（3）通过分析每个部分中的子部分，并利用主题建模方法识别关键主题，我们发现了每个部分讨论的内容，并强调了技术和社会影响以及使用数据部分的局限性；（4）我们的研究还强调了在使用部分中提高数据集可访问性和可复现性的需要；（5）此外，我们的人工标注评估强调了全面数据集内容对于塑造个人对数据集卡整体质量看法的重要作用。总体而言，本研究通过大规模数据科学分析提供了对数据集文档的独特视角，并强调了机器学习研究中更加全面的数据集文档需求。

Jan, 2024

关于科学数据在机器学习中的公平透明使用准备情况

通过分析 4041 篇不同领域的数据论文，本研究提出了一套建议指南，旨在增加数据的准备性，确保其在机器学习技术中的透明和公正使用。

Jan, 2024

加速科学的数据集工程白皮书

数据集在科学发现过程中的组织和应用至关重要，也应该成为任何知识密集型过程中的一等公民，并且应该引起人们对数据集生命周期的重视和关注，尤其是在使用人工智能方法来探索科学知识时。

Mar, 2023