探究 BigCode、知识产权和道德：这到底是谁的代码？

Apr, 2023

探究 BigCode、知识产权和道德：这到底是谁的代码？

Whose Text Is It Anyway? Exploring BigCode, Intellectual Property, and Ethics

Madiha Zahrah Choksi, David Goedicke

TL;DR本文旨在探究大型语言模型训练所使用的开放数据集的版权利益，以及生成式写作工具如何规避其版权问题，最后提出了可供开发人员、软件法律专家和普通用户在智能大型语言模型驱动的写作工具背景下考虑的实际版权分析路线图。

Abstract

Intelligent or generative writing tools rely on large language models that recognize, summarize, translate, and predict content. This position paper probes the →

generative writing large language models copyright open data sets software law

发现论文，激发创造

使用开源代码训练大型语言模型的（滥）用

本研究探讨使用未经授权的代码构建 LLMs 所带来的安全、隐私和版权问题，并提出了四条可行的建议。

Feb, 2023

SHIELD：LLM 文本生成中版权合规的评估与防御策略

当前大型语言模型存在版权侵权问题，相关挑战包括版权合规评估、鲁棒性防御以及生成版权文本的有效防御机制。本文介绍了一个数据集用于评估方法、测试攻击策略，并提出了轻量级、实时的防御机制以确保大型语言模型的安全合法使用。实验证明，当前大型语言模型存在生成版权文本的问题，而越狱攻击会显著增加生成的版权文本量。我们提出的防御机制通过有效拒绝恶意请求，显著减少了大型语言模型生成的版权文本量。代码公开可用于该链接网址。

Jun, 2024

侵权与大型语言模型

本研究通过对语言模型的逐字记忆进行探索，重点关注版权文字的再分发可能性，通过对一系列热门图书和编码问题进行实验，提供了个人估计的语言模型再分发这些材料的程度。总体而言，本研究强调了进一步研究的必要性，以及对版权法规遵守的潜在影响和未来自然语言处理发展的潜在影响。

Oct, 2023

如何在大型语言模型的优化中保护版权数据？

利用训练大语言模型的理论方法，可以避免生成版权数据。

Aug, 2023

生成型人工智能中数据的知识产权保护方法评述

大型生成型人工智能（GAI）模型可以生成逐渐无法区分是否人工生成的文本、图片、声音和其他形式的媒体。本文研究了训练数据的知识产权问题，重点关注生成模型的特性，探讨可能导致潜在知识产权侵犯的滥用行为，并提出了一个分类体系，对 GAI 中保护数据免受知识产权侵犯的技术解决方案进行系统评述。

Apr, 2024

生成式人工智能中的版权保护：技术视角

从技术角度综述了版权保护，包括数据源权利保护和生成模型版权保护，探讨了数据所有者保护内容和合法利用 DGMs 的方法，以及防止模型盗取和识别特定模型生成结果的策略。同时，强调了现有技术限制和待开发领域，并讨论了版权保护对 Generative AI 可持续和道德发展的重要性。

Feb, 2024

大型语言模型训练数据集中的代码许可侵权初探

大语言模型的训练是否会侵犯代码许可证？是否有可以安全使用来训练这些模型的可用数据集而不违反这些许可证呢？通过 53 个训练于文件级代码的大语言模型的研究，我们发现每个数据集都存在许可证一致性问题。因此，我们建议研究人员和社区都应优先发展和采用最佳实践来创建和管理数据集。

Mar, 2024

语言语模与记忆：版权合规的质量和特定性

采用欧洲法律为例，本研究提出了一种系统分析方法， quantifying potential copyright infringements in large language models (LLMs)。通过使用 160 个字符的阈值和模糊文本匹配算法，研究分析了指导微调模型在真实终端用户场景中的行为和特征。该研究结果发现在几种主流的 LLMs 中对版权合规、行为特征和适当拒绝方面表现出巨大差异。

May, 2024

应用标准推进大型语言模型的上下游伦理

本文探讨了 AI 所有者如何通过借鉴其他内容创作行业的行为准则和伦理标准来为 AI 生成的内容开发保障措施，并通过剖析 LLMs 内容生成机制，确定了四个关键领域，即上游 / 下游和用户提示 / 回答，在这些领域中可以有效地应用保障措施，同时包括一个比较分析这四个区域，并评估现有的伦理保障措施在成本、有效性和与行业实践的一致性方面的情况。本文的核心观点是，现有的 IT 相关伦理准则虽然适用于传统的 IT 工程，但对 LLM 生成内容所带来的挑战来说是不足够的。最后，突出强调上游数据集整理和下游伦理基准之间的潜在利益冲突，强调需要进行更广泛的评估，并针对在这个快速发展的内容生成领域中的伦理影响展开细致的对话。

Jun, 2023

建立负责任且可靠的大型语言模型的关键

本文探讨了如何通过引入引用机制来降低大型语言模型的知识产权和伦理问题，提高内容的透明度和可验证性。

Jul, 2023