- CVPR在生成文化悬崖边缘
NFTs 和大型生成模型对艺术家的工作和版权构成威胁,本文通过探讨一种警示性的故事来思考如果生成模型仅使用生成内容进行训练,对视觉艺术将产生何种影响。
- 战略行为与人工智能训练数据
探讨人工智能(AI)训练数据集中的战略行为对创作者行为的影响,通过研究 Unsplash 平台上的摄影师反应,发现对于那些作品被纳入 AI 数据集的摄影师来说,离开该平台的比率更高,并且上传新作品的速度明显减慢。此外,影响的用户改变了对平台 - 软件开发者在生成式人工智能应用中的法律问题
近年来,生成人工智能(GenAI)取得了一系列的成功,能够生成高质量的代码、自然语言和图像。接下来的任务是将 GenAI 技术整合到产品中,这是软件开发人员通常进行的任务。在本文中,我们着重介绍了两种与产品开发涉及的风险:数据保护和版权问题 - 计算版权:面向 AI 音乐生成平台的版税模型
该研究旨在针对生成式人工智能在音乐产业中所引发的版权挑战,重点关注经济方面的问题,并提出了用于 AI 音乐生成平台的潜在版税模式。研究方法包括对 Spotify 和 YouTube 等现有版税模式进行详细分析,并将其适应于 AI 生成音乐的 - 通用大型语言模型中的记忆化
大型语言模型在记忆方面的挑战和机会,包括隐私、安全、版权等问题,并提出目前的研究方向。
- 大脑细胞读了你的书吗?针对大型语言模型的文档级成员推断
大型语言模型在我们日常生活中的嵌入中引起了关于它们所学习的数据集的问题,包括潜在的偏见或误导信息以及人类生成文本的版权和合理使用问题。我们引入了实际应用于大型语言模型的文件级成员推断任务,并展示了我们的方法在准确确定文档级成员方面的优越性, - 探索微调语言模型中的记忆化
本文研究了 LLMs 在 pre-training 和 fine-tuning 阶段的记忆化行为及其对隐私和版权的影响,并通过对不同任务的实验验证了 fine-tuned 记忆化在任务间的差异性,进一步提出了多任务 fine-tuning - 探究实际场景下扩散模型的版权问题
我们的研究通过对部分版权侵权进行探究,并使用与版权有很大差异的提示,解决了以往研究的局限性。我们开发了一个数据生成流程,为扩散模型中的版权研究创建数据集。使用我们的流程,我们创建了包含不同扩散模型中版权侵权样本的数据集,并在各种标准下进行评 - 扩散模型中的统一概念编辑
文本到图像模型存在各种安全问题,先前的方法分别解决了偏见、版权和冒犯内容问题,但在实际环境中,所有这些问题同时出现在同一个模型中。我们提出了一种能够一次性处理所有问题的方法,名为统一概念编辑(UCE),通过一个闭合解而无需训练来修改模型,并 - MusicLDM: 使用节奏同步混合策略增强文本生成音乐中的新颖性
通过构建一种文本到音乐模型,并利用分布式扩散模型和音频广义线性模型来进行训练以生成新音乐,解决了音乐生成过程中的数据不足、版权和抄袭等问题。同时通过节拍跟踪和两种不同的数据增强策略,即拍子同步音频混合和拍子同步潜在混合,实现对训练数据的重组 - 测量扩散模型在模仿人类艺术家方面的成功
现代扩散模型在人工智能图像生成中处于领先地位。本研究发现,这种成功部分归因于在互联网规模的数据上进行训练,其中包括版权作品。研究通过使用 CLIP 编码器进行艺术家的模仿,验证模型是否能够成功模仿人类艺术家。
- ChatGPT 和其他相似系统是 AI 的现代勒尔纳水蛇吗?
本文旨在探讨如何保护开源代码的知识产权,特别是与 AI 生成代码的关系,提出改变开源代码许可证,鼓励立法行动等措施来保障 AI 系统未来发展并促进创新。
- Mist:面向扩散模型的改进对抗样本
本文研究了扩散模型对于人工智能生成内容,特别是艺术创作的成功,并提出了针对侵权的对抗样本有效性方案。我们探讨了对抗样本的可迁移性问题并利用融合与修改的对抗损失函数明显提高了其可迁移性。实验结果表明我们的方法比现有方法更能生成可迁移且更具有对 - ACL保护 EaaS 中的大型语言模型版权 —— 通过后门水印技术
本文提出了一种称为 EmbMarker 的嵌入式数字水印方法,可通过在包含触发词的文本嵌入背门等方式,有效地保护嵌入式服务模型的版权,同时减小对原始嵌入的影响,并经过了各种数据集的广泛实验验证。
- 使用 ChatGPT 和 Works Scholarly 进行 AI 写作的最佳实践和法律陷阱
本文介绍了如何在学术写作中使用人工智能 (AI),并提供了一系列最佳实践,以确保在使用 AI 时不违反版权或落入公平使用的安全港。我们提供了一个框架,以确立健全的法律和学术基础。
- 探究 BigCode、知识产权和道德:这到底是谁的代码?
本文旨在探究大型语言模型训练所使用的开放数据集的版权利益,以及生成式写作工具如何规避其版权问题,最后提出了可供开发人员、软件法律专家和普通用户在智能大型语言模型驱动的写作工具背景下考虑的实际版权分析路线图。
- 基础模型与合理使用
该研究探讨了基于版权内容训练基础模型所面临的法律和伦理风险,重点讨论了如何通过技术手段实现基础模型的合理使用,同时提出法律和技术手段应该共同演进的观点。
- 关于 LAION-2B 数据去重的研究
本文提出了一种算法链,能够对规模为 20 亿张图片的 LAION-2B 数据集进行有效的重复检测,并揭示了大量的版权问题,能够充分解决当前模型训练时所遇到的问题。
- 东鸟国际鸟类 10000 数据集
DIB-10K 是一个具有挑战性的图像数据集,包含了一万多种不同类型的鸟类,旨在促进机器学习和鸟类学研究,但不拥有这些图像的版权,只提供缩略图。
- ICMLREFIT: 面向有限数据的深度学习系统统一去水印框架
本文介绍了一种有效的 REFIT 去水印框架,利用经过 fine-tuning 的权重来消除深度神经网络中的水印标记,同时有两种技术来减少去水印所需的带标签数据量,并展示了多种水印嵌入方案。