探究 BigCode、知识产权和道德:这到底是谁的代码?
当前大型语言模型存在版权侵权问题,相关挑战包括版权合规评估、鲁棒性防御以及生成版权文本的有效防御机制。本文介绍了一个数据集用于评估方法、测试攻击策略,并提出了轻量级、实时的防御机制以确保大型语言模型的安全合法使用。实验证明,当前大型语言模型存在生成版权文本的问题,而越狱攻击会显著增加生成的版权文本量。我们提出的防御机制通过有效拒绝恶意请求,显著减少了大型语言模型生成的版权文本量。代码公开可用于该链接网址。
Jun, 2024
本研究通过对语言模型的逐字记忆进行探索,重点关注版权文字的再分发可能性,通过对一系列热门图书和编码问题进行实验,提供了个人估计的语言模型再分发这些材料的程度。总体而言,本研究强调了进一步研究的必要性,以及对版权法规遵守的潜在影响和未来自然语言处理发展的潜在影响。
Oct, 2023
大型生成型人工智能(GAI)模型可以生成逐渐无法区分是否人工生成的文本、图片、声音和其他形式的媒体。本文研究了训练数据的知识产权问题,重点关注生成模型的特性,探讨可能导致潜在知识产权侵犯的滥用行为,并提出了一个分类体系,对 GAI 中保护数据免受知识产权侵犯的技术解决方案进行系统评述。
Apr, 2024
从技术角度综述了版权保护,包括数据源权利保护和生成模型版权保护,探讨了数据所有者保护内容和合法利用 DGMs 的方法,以及防止模型盗取和识别特定模型生成结果的策略。同时,强调了现有技术限制和待开发领域,并讨论了版权保护对 Generative AI 可持续和道德发展的重要性。
Feb, 2024
大语言模型的训练是否会侵犯代码许可证?是否有可以安全使用来训练这些模型的可用数据集而不违反这些许可证呢?通过 53 个训练于文件级代码的大语言模型的研究,我们发现每个数据集都存在许可证一致性问题。因此,我们建议研究人员和社区都应优先发展和采用最佳实践来创建和管理数据集。
Mar, 2024
采用欧洲法律为例,本研究提出了一种系统分析方法, quantifying potential copyright infringements in large language models (LLMs)。通过使用 160 个字符的阈值和模糊文本匹配算法,研究分析了指导微调模型在真实终端用户场景中的行为和特征。该研究结果发现在几种主流的 LLMs 中对版权合规、行为特征和适当拒绝方面表现出巨大差异。
May, 2024
本文探讨了 AI 所有者如何通过借鉴其他内容创作行业的行为准则和伦理标准来为 AI 生成的内容开发保障措施,并通过剖析 LLMs 内容生成机制,确定了四个关键领域,即上游 / 下游和用户提示 / 回答,在这些领域中可以有效地应用保障措施,同时包括一个比较分析这四个区域,并评估现有的伦理保障措施在成本、有效性和与行业实践的一致性方面的情况。本文的核心观点是,现有的 IT 相关伦理准则虽然适用于传统的 IT 工程,但对 LLM 生成内容所带来的挑战来说是不足够的。最后,突出强调上游数据集整理和下游伦理基准之间的潜在利益冲突,强调需要进行更广泛的评估,并针对在这个快速发展的内容生成领域中的伦理影响展开细致的对话。
Jun, 2023