数据溯源倡议：大规模人工智能数据集许可和归属审计

Oct, 2023

数据溯源倡议：大规模人工智能数据集许可和归属审计

The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI

Shayne Longpre, Robert Mahari, Anthony Chen, Naana Obeng-Marnu, Damien Sileo...

TL;DR我们在语言模型的训练中发现了数据透明性和道德风险的问题，因此我们进行了一项多学科工作，对 1800 多个文本数据集进行了系统审计和追踪。我们发展了工具和标准，以跟踪这些数据集的来源、创作者、许可条件、属性和使用情况。我们的分析突出了商业开放数据集与封闭数据集在构成和重点方面的差异，封闭数据集垄断了重要的类别。此外，我们的研究还发现了广泛使用的数据集托管网站上许可证的错误和遗漏。为了促进数据集的透明性和负责任使用，我们发布了我们的审计结果，并提供了一个交互式界面，数据溯源浏览器，让从业者可以追踪和筛选最流行的开源调整数据集的数据溯源信息：www.dataprovenance.org。

Abstract

The race to train language models on vast, diverse, and inconsistently documented datasets has raised pressing concerns about the legal and ethical risks for practitioners. To remedy these practices threatening data transparency and understanding, we convene a multi-disciplinary effort

language models data transparency dataset auditing license conditions dataset provenance

发现论文，激发创造

AI 数据的真实性、同意和来源都存在问题：修复它们需要什么？

基于对基础模型训练数据的大规模分析和现有解决方案，我们确定了促进负责任的基础模型开发实践所需的缺失基础设施，并概述了政策制定者、开发者和数据创造者如何通过采用通用数据溯源标准来促进负责任的基础模型开发。

Apr, 2024

机器学习数据集的问责性：源于软件工程和基础设施的实践

通过严格的数据集开发透明度框架，从软件开发生命周期中提取最佳实践，以决策和问责支持来关闭人工智能系统中的问责差距。

Oct, 2020

关于具有公平性、隐私和监管规范的负责任机器学习数据集

在当前人工智能时代，本研究讨论了负责任的机器学习数据集的重要性，并提出了一个评估数据集的负责任框架。通过公平性、隐私保护和合规性等方面的考虑，我们分析了超过 100 个数据集，发现没有一个数据集能免于公平性、隐私保护和合规性问题。我们对数据集的文档化提供了改进建议，并认为在全球范围内的数据保护法规定下，科学界的数据集创建方法需要修订。

Oct, 2023

差分审计的数据溯源

本文提出了一种基于统计显著性的差异性审计框架（DPDA），用于审计数据纪录来源，使审计员能够在不需要训练阴影模型的情况下，区分训练数据和非训练数据。此外，该文还提出了两种有效的审计函数实现，并在现实世界的数据集上进行了评估，证明了该技术的有效性。

Sep, 2022

应对生成式人工智能数据生命周期中的隐私和版权挑战

生成式人工智能在模拟真实图像、文本和数据模式方面展示了令人瞩目的能力，然而，大规模数据集的使用引发了对数据隐私和版权侵权的担忧，传统方法只能提供问题的局部解决方案。我们的论文对数据生命周期内的隐私和版权保护面临的多层面挑战进行了深入研究，并主张综合技术创新与伦理思考来综合性地解决这些问题，以生命周期的视角开展调查和设计解决方案，旨在激发更广泛的讨论，并在生成式人工智能中积极推动数据隐私和版权完整性的共同努力。

Nov, 2023

数据许可证的标准化：蒙特利尔数据许可证

本文提供了人工智能和机器学习领域数据许可的分类，以建立类似于开源软件许可证的通用框架。新的数据许可语言 —— 蒙特利尔数据许可证（MDL）以及配套的基于 Web 的工具可以奉行本文所阐述的税 onomies。其目的是通过增加透明度，解决现有许可证文本中概念上的模糊之处，从而在 AI 和 ML 领域带来更清晰的工具和概念，使数据市场更公平，更有效。

Mar, 2019

大型语言模型训练数据集中的代码许可侵权初探

大语言模型的训练是否会侵犯代码许可证？是否有可以安全使用来训练这些模型的可用数据集而不违反这些许可证呢？通过 53 个训练于文件级代码的大语言模型的研究，我们发现每个数据集都存在许可证一致性问题。因此，我们建议研究人员和社区都应优先发展和采用最佳实践来创建和管理数据集。

Mar, 2024

关于科学数据在机器学习中的公平透明使用准备情况

通过分析 4041 篇不同领域的数据论文，本研究提出了一套建议指南，旨在增加数据的准备性，确保其在机器学习技术中的透明和公正使用。

Jan, 2024

适合工作的工具：机器学习中的开源审计工具

本文强调了在机器学习中使用公平性、责任性、透明度和伦理 (FATE) 工具的紧迫性，并提供了使用开源工具的动机。

Jun, 2022

神奇的数据及如何查询它们

本文介绍了一个用于不同数据集整合和查询的统一框架，并在计算机视觉数据集中展示了其在不同情景下的优势。

Jan, 2022