Oct, 2023

数据溯源倡议:大规模人工智能数据集许可和归属审计

TL;DR我们在语言模型的训练中发现了数据透明性和道德风险的问题,因此我们进行了一项多学科工作,对 1800 多个文本数据集进行了系统审计和追踪。我们发展了工具和标准,以跟踪这些数据集的来源、创作者、许可条件、属性和使用情况。我们的分析突出了商业开放数据集与封闭数据集在构成和重点方面的差异,封闭数据集垄断了重要的类别。此外,我们的研究还发现了广泛使用的数据集托管网站上许可证的错误和遗漏。为了促进数据集的透明性和负责任使用,我们发布了我们的审计结果,并提供了一个交互式界面,数据溯源浏览器,让从业者可以追踪和筛选最流行的开源调整数据集的数据溯源信息:www.dataprovenance.org。