数据肖像:记录基础模型训练数据
基于对基础模型训练数据的大规模分析和现有解决方案,我们确定了促进负责任的基础模型开发实践所需的缺失基础设施,并概述了政策制定者、开发者和数据创造者如何通过采用通用数据溯源标准来促进负责任的基础模型开发。
Apr, 2024
使用大型文本到图像模型生成图像的能力已经引起了巨大的变革,但是对于特定独特或个人化的视觉概念,如您的宠物、屋内物品等,并不能被原始模型捕捉到。本文通过采用数据为中心的方法,提出了一种新颖的正则化数据集生成策略,旨在解决文本连贯性丧失和身份保留问题,进一步提高图像质量,并能生成符合输入文本提示的多样样本。实验证明,我们的数据为中心的方法在图像质量方面具有新的技术实力,在身份保留、多样性和文本对齐之间取得了最佳的平衡。
Nov, 2023
本文调查了一系列流行模型中预训练表示所编码的个人信息的程度,并展示了模型越复杂和数据越多,可能出现数据泄露的正相关性。作者对一种大型多语言数据集上的情感分析特征进行了广泛覆盖的比较和评估,结果表明,隐私保护方法的使用非常重要。作者还发现高度隐私保护的技术(如差分隐私)可能会对模型效用产生严重影响,可以使用混合或度量隐私方法来解决。
Apr, 2022
研究机器学习模型在自然语言推断(NLI)中学习数据集人工特征的问题,并提供一种多层次的数据增强方法以减轻数据集的人工特征带来的影响。
Dec, 2022
我们在语言模型的训练中发现了数据透明性和道德风险的问题,因此我们进行了一项多学科工作,对 1800 多个文本数据集进行了系统审计和追踪。我们发展了工具和标准,以跟踪这些数据集的来源、创作者、许可条件、属性和使用情况。我们的分析突出了商业开放数据集与封闭数据集在构成和重点方面的差异,封闭数据集垄断了重要的类别。此外,我们的研究还发现了广泛使用的数据集托管网站上许可证的错误和遗漏。为了促进数据集的透明性和负责任使用,我们发布了我们的审计结果,并提供了一个交互式界面,数据溯源浏览器,让从业者可以追踪和筛选最流行的开源调整数据集的数据溯源信息:www.dataprovenance.org。
Oct, 2023
本文提出了一个名为 “模型卡” 的框架,以鼓励对训练的机器学习模型进行透明的报告,并为不同应用领域提供基准评估。模型卡旨在推进机器学习和人工智能技术的负责任民主化,提高了解 AI 技术工作情况的透明度。
Oct, 2018
本研究旨在研究 Annotation Artifacts 在大型预先训练的 NLP 模型中的表现,分析其在自然语言推断任务中的限制、通过数据增强技术解决注释工件所引起的偏差,以及评估该方法的有效性。
Feb, 2023