基础模型与合理使用
本研究通过对语言模型的逐字记忆进行探索,重点关注版权文字的再分发可能性,通过对一系列热门图书和编码问题进行实验,提供了个人估计的语言模型再分发这些材料的程度。总体而言,本研究强调了进一步研究的必要性,以及对版权法规遵守的潜在影响和未来自然语言处理发展的潜在影响。
Oct, 2023
通过建立一个带有内生内容创作和 AI 模型发展的动态模型,我们研究了公平使用标准和 AI 版权可保护性对人工智能发展、AI 公司利润、创作者收入和消费者福利的影响,并揭示了这些影响如何受到各种经济和运营因素的影响,为政策制定者提供了动态、具体背景的决策方法和为全球监管环境中的商业领导者提供了见解。
Feb, 2024
介绍了一种用于检测和评估用于大型语言模型的训练数据集中的潜在版权书籍内容的详细框架,并提供了每个内容样本包含的可信度估计。通过模拟实验证实了该框架在识别和解决语言模型训练过程中的内容滥用方面的有效性,同时研究了这些数据集中来自名著的可识别引用语的存在。研究结果对于确保版权材料在语言模型开发中的合理使用具有重要意义,强调了在该领域需要更加透明和负责任的数据管理实践。
Jan, 2024
我们的研究通过对部分版权侵权进行探究,并使用与版权有很大差异的提示,解决了以往研究的局限性。我们开发了一个数据生成流程,为扩散模型中的版权研究创建数据集。使用我们的流程,我们创建了包含不同扩散模型中版权侵权样本的数据集,并在各种标准下进行评估。我们的结果显示,在一系列扩散模型中生成侵权内容的普遍性,包括最新的稳定扩散 XL 模型。
Sep, 2023
基于对基础模型训练数据的大规模分析和现有解决方案,我们确定了促进负责任的基础模型开发实践所需的缺失基础设施,并概述了政策制定者、开发者和数据创造者如何通过采用通用数据溯源标准来促进负责任的基础模型开发。
Apr, 2024
本文介绍了基础模型,深度学习中通过模型大小和训练数据广度和大小的扩展可以对未来的 AI 开发造成破坏。基础模型在各种任务领域(如自然语言处理和计算机视觉)中实现了最先进的性能,并且通过进一步的改进常常得到更好的表现。此外,模型的单一化可能会将众多特定任务的模型替换为由少数公司控制的更少数量的大型模型,从而导致对 AI 的权力和控制的转移,并出现新兴的行为方式:上下文学习。
Dec, 2022
本文研究了使用图像中的不可察觉攻击来改变多模态基础模型的标题输出,揭示了恶意内容提供者如何利用此方式伤害诚实用户,并强调了部署的多模态基础模型应采取对抗性攻击的对策。
Aug, 2023
开放基础模型具有创新、竞争、决策权分配和透明度等显著优势,但当前的研究还不足以有效地表征相对于现有技术的边际风险,因此需要进一步的研究来实证验证其理论上的利益和风险。
Feb, 2024