SHIELD：LLM 文本生成中版权合规的评估与防御策略

Jun, 2024

SHIELD：LLM 文本生成中版权合规的评估与防御策略

SHIELD: Evaluation and Defense Strategies for Copyright Compliance in LLM Text Generation

Xiaoze Liu, Ting Sun, Tianyang Xu, Feijie Wu, Cunxiang Wang...

TL;DR当前大型语言模型存在版权侵权问题，相关挑战包括版权合规评估、鲁棒性防御以及生成版权文本的有效防御机制。本文介绍了一个数据集用于评估方法、测试攻击策略，并提出了轻量级、实时的防御机制以确保大型语言模型的安全合法使用。实验证明，当前大型语言模型存在生成版权文本的问题，而越狱攻击会显著增加生成的版权文本量。我们提出的防御机制通过有效拒绝恶意请求，显著减少了大型语言模型生成的版权文本量。代码公开可用于该链接网址。

Abstract

large language models (LLMs) have transformed machine learning but raised significant legal concerns due to their potential to produce text that infringes on copyrights, resulting in several high-profile lawsuits. The legal landscape is struggling to keep pace with these rapid advancem

large language models copyright infringement evaluation benchmark safeguard bypassing attacks defense mechanisms

发现论文，激发创造

语言语模与记忆：版权合规的质量和特定性

采用欧洲法律为例，本研究提出了一种系统分析方法， quantifying potential copyright infringements in large language models (LLMs)。通过使用 160 个字符的阈值和模糊文本匹配算法，研究分析了指导微调模型在真实终端用户场景中的行为和特征。该研究结果发现在几种主流的 LLMs 中对版权合规、行为特征和适当拒绝方面表现出巨大差异。

May, 2024

检测 LLM 生成的文本的科学

该研究对大型语言模型生成文本的检测技术现状及未来方向进行了综述，并提出了发展全面的评估指标和威胁控制方案等必要措施。关注点包括大型语言模型的开源威胁和其所产生的可能的误传信息问题。

Feb, 2023

LLMs 生成内容检测调查

综述了大规模语言模型（LLMs）生成内容检测的现有策略和基准，并指出该领域的关键挑战和前景，提倡采用更加适应性和稳健的模型来提高检测准确性，以及应对 LLMs 能力快速发展的多方面防御方法的必要性。该工作是在 LLMs 时代首部全面综述内容检测的研究，旨在为研究人员和从业者提供广泛了解 LLMs 生成内容检测的当前情况的指导参考，以保护数字信息的完整性。

Oct, 2023

Digger: 大型语言模型训练中侵权内容的检测

介绍了一种用于检测和评估用于大型语言模型的训练数据集中的潜在版权书籍内容的详细框架，并提供了每个内容样本包含的可信度估计。通过模拟实验证实了该框架在识别和解决语言模型训练过程中的内容滥用方面的有效性，同时研究了这些数据集中来自名著的可识别引用语的存在。研究结果对于确保版权材料在语言模型开发中的合理使用具有重要意义，强调了在该领域需要更加透明和负责任的数据管理实践。

Jan, 2024

LLM 自卫：通过自我检验，LLM 知道自己被欺骗

通过使用语言模型验证内容，我们提出了一种简单的方法来防御对抗性攻击，从而使大型语言模型过滤其自己的回应，即使模型未经人类价值重新调整，也可以避免为用户呈现有害内容。

Aug, 2023

大型语言文本生成实时保障框架

LLMSafeGuard 是一个轻量级框架，通过将外部验证器集成到束搜索算法中，在实时中实现 LLM 文本生成的安全的保障。LLMSafeGuard 在去毒化任务和版权保护任务中表现出优越的性能，减少了 LLM 输出的有毒评分，并减小了版权内容的重复率。此外，LLMSafeGuard 的上下文选择策略降低了推断时间，并提供可调整参数来平衡效果和效率。

Apr, 2024

跨任务防御：面向内容安全的指令调优语言模型

我们的研究旨在针对恶意文件开发强大的大型语言模型（LLMs）防御机制，并通过指导调整来提高它们处理危险内容的能力，同时维持其效用和安全之间的平衡。在我们的实证结果中，LLMs 可以通过适当的指导调整显著增强它们处理危险内容的能力。此外，加强易受滥用任务的防御策略对于保护 LLMs 免受处理有害信息的影响是有效的。我们还观察到防御策略中存在效用与安全之间的权衡，其中采用我们提出的方法的 Llama2 相比 Llama1 具有更好的平衡。

May, 2024

LLMGuard：防范不安全 LLM 行为

通过使用一组检测器，我们提出了 “LLMGuard”，这是一个监视用户与 LLM 应用程序交互并对内容进行标记的工具，以应对大型语言模型在企业环境中带来的新机遇和挑战。

Feb, 2024

基于 LLM 的文本检测调查：必要性、方法和未来方向

大语言模型生成的文本检测是一项关键任务，需要开发检测器来区分其文本是否由大语言模型生成，并呼吁加强相关研究以推进负责任的人工智能实现。

Oct, 2023

PlagBench: 大型语言模型在抄袭生成和检测中的二元性探索

最近的文献强调了大型语言模型（LLMs）与学术诚信相关的潜在风险，它们可以记忆部分训练实例并在生成的文本中无妥善归属地复制。此外，鉴于它们在生成高质量文本方面的能力，剽窃者可以利用 LLMs 生成与原作无法区分的逼真释义或摘要。为了应对 LLMs 可能在剽窃行为中的恶意使用，我们介绍了 PlagBench，这是一个综合的数据集，由三个针对不同写作领域的三个指导调整的 LLMs 生成的 46.5K 个合成剽窃案例组成。通过对每种类型的剽窃进行细粒度的自动评估和人工注释来确保 PlagBench 的质量。然后，我们利用我们提出的数据集来评估五个现代 LLMs 和三个专门的剽窃检测器的剽窃检测性能。我们的研究结果表明，与 Llama2 和 GPT-4 相比，GPT-3.5 倾向于生成更高质量的释义和摘要。尽管 LLMs 在摘要剽窃识别方面表现较差，但它们可以超过当前的商业剽窃检测器。总体而言，我们的结果突显了 LLMs 作为强大剽窃检测工具的潜力。

Jun, 2024