基础模型与合理使用

Mar, 2023

Foundation Models and Fair Use

Peter Henderson, Xuechen Li, Dan Jurafsky, Tatsunori Hashimoto, Mark A. Lemley...

TL;DR该研究探讨了基于版权内容训练基础模型所面临的法律和伦理风险，重点讨论了如何通过技术手段实现基础模型的合理使用，同时提出法律和技术手段应该共同演进的观点。

Abstract

Existing foundation models are trained on copyrighted material. Deploying these models can pose both legal and ethical risks when data creators fail to receive appropriate attribution or compensation. In the United States and several other countries, copyrighted content may be used to

foundation models fair use copyright legal risks technical mitigations

发现论文，激发创造

基础模型的机遇与风险

AI 基础模型的兴起，具有广泛数据训练和可适应下游任务的特点，其机制、应用和社会影响需要更多的跨学科合作来研究。

Aug, 2021

训练即一切：人工智能、版权和公平训练

本文从伦理和法律的角度分析了将受版权保护的作品加入 AI 训练集中，辩论 AI 会否因此而受到限制，并评估了 AI 影响社会的成本和利益。

May, 2023

侵权与大型语言模型

本研究通过对语言模型的逐字记忆进行探索，重点关注版权文字的再分发可能性，通过对一系列热门图书和编码问题进行实验，提供了个人估计的语言模型再分发这些材料的程度。总体而言，本研究强调了进一步研究的必要性，以及对版权法规遵守的潜在影响和未来自然语言处理发展的潜在影响。

Oct, 2023

生成人工智能和版权：动态视角

通过建立一个带有内生内容创作和 AI 模型发展的动态模型，我们研究了公平使用标准和 AI 版权可保护性对人工智能发展、AI 公司利润、创作者收入和消费者福利的影响，并揭示了这些影响如何受到各种经济和运营因素的影响，为政策制定者提供了动态、具体背景的决策方法和为全球监管环境中的商业领导者提供了见解。

Feb, 2024

Digger: 大型语言模型训练中侵权内容的检测

介绍了一种用于检测和评估用于大型语言模型的训练数据集中的潜在版权书籍内容的详细框架，并提供了每个内容样本包含的可信度估计。通过模拟实验证实了该框架在识别和解决语言模型训练过程中的内容滥用方面的有效性，同时研究了这些数据集中来自名著的可识别引用语的存在。研究结果对于确保版权材料在语言模型开发中的合理使用具有重要意义，强调了在该领域需要更加透明和负责任的数据管理实践。

Jan, 2024

探究实际场景下扩散模型的版权问题

我们的研究通过对部分版权侵权进行探究，并使用与版权有很大差异的提示，解决了以往研究的局限性。我们开发了一个数据生成流程，为扩散模型中的版权研究创建数据集。使用我们的流程，我们创建了包含不同扩散模型中版权侵权样本的数据集，并在各种标准下进行评估。我们的结果显示，在一系列扩散模型中生成侵权内容的普遍性，包括最新的稳定扩散 XL 模型。

Sep, 2023

AI 数据的真实性、同意和来源都存在问题：修复它们需要什么？

基于对基础模型训练数据的大规模分析和现有解决方案，我们确定了促进负责任的基础模型开发实践所需的缺失基础设施，并概述了政策制定者、开发者和数据创造者如何通过采用通用数据溯源标准来促进负责任的基础模型开发。

Apr, 2024

基础模型简介：历史、社会和技术焦点

本文介绍了基础模型，深度学习中通过模型大小和训练数据广度和大小的扩展可以对未来的 AI 开发造成破坏。基础模型在各种任务领域（如自然语言处理和计算机视觉）中实现了最先进的性能，并且通过进一步的改进常常得到更好的表现。此外，模型的单一化可能会将众多特定任务的模型替换为由少数公司控制的更少数量的大型模型，从而导致对 AI 的权力和控制的转移，并出现新兴的行为方式：上下文学习。

Dec, 2022

多模基础模型的对抗鲁棒性

本文研究了使用图像中的不可察觉攻击来改变多模态基础模型的标题输出，揭示了恶意内容提供者如何利用此方式伤害诚实用户，并强调了部署的多模态基础模型应采取对抗性攻击的对策。

Aug, 2023

开放基础模型的社会影响

开放基础模型具有创新、竞争、决策权分配和透明度等显著优势，但当前的研究还不足以有效地表征相对于现有技术的边际风险，因此需要进一步的研究来实证验证其理论上的利益和风险。

Feb, 2024