未经我同意训练：检测编码包含在源代码训练模型中

Feb, 2024

未经我同意训练：检测编码包含在源代码训练模型中

Trained Without My Consent: Detecting Code Inclusion In Language Models Trained on Code

Vahid Majdinasab, Amin Nikanjam, Foutse Khomh

TL;DR为解决通过训练集成员推理来检测大型语言模型（LLMs）中代码包含的版权问题，作者提出了一种新方法 TraWiC，该方法是一种适用于任何模型且可解释的检测代码包含的方法。在实验证明，TraWiC 可以检测到 83.87% 的用于训练 LLM 的代码，而普通的克隆检测工具 NiCad 只能检测到 47.64%。此外，TraWiC 在资源消耗方面较低。

Abstract

code auditing ensures that the developed code adheres to standards, regulations, and copyright protection by verifying that it does not contain code from protected sources. The recent advent of large language models

code auditing large language models copyright infringement code inclusion trawic

发现论文，激发创造

Digger: 大型语言模型训练中侵权内容的检测

介绍了一种用于检测和评估用于大型语言模型的训练数据集中的潜在版权书籍内容的详细框架，并提供了每个内容样本包含的可信度估计。通过模拟实验证实了该框架在识别和解决语言模型训练过程中的内容滥用方面的有效性，同时研究了这些数据集中来自名著的可识别引用语的存在。研究结果对于确保版权材料在语言模型开发中的合理使用具有重要意义，强调了在该领域需要更加透明和负责任的数据管理实践。

Jan, 2024

大型语言模型训练数据集中的代码许可侵权初探

大语言模型的训练是否会侵犯代码许可证？是否有可以安全使用来训练这些模型的可用数据集而不违反这些许可证呢？通过 53 个训练于文件级代码的大语言模型的研究，我们发现每个数据集都存在许可证一致性问题。因此，我们建议研究人员和社区都应优先发展和采用最佳实践来创建和管理数据集。

Mar, 2024

LLM 数据推断：你在我的数据集上训练了吗？

大语言模型在现实世界中的大量使用产生了对公司以未经许可的方式在互联网上训练模型的版权纠纷。本文提出了一种新的数据集推断方法来准确识别用于训练大语言模型的数据集，成功地区分了不同子集的 Pile 数据集的训练集和测试集，无任何错误的正例。

Jun, 2024

大型语言模型的版权陷阱

利用版权陷阱检测大型语言模型中的版权材料，通过研究版权保护的内容的公平使用和训练模型中的内容是否可被检测，提出了一种实验设计，并发现较长的序列经过重复多次可以可靠地检测出来，并通过研究序列出现次数及困惑度，以及考虑上下文的方法进一步改善了检测能力。

Feb, 2024

使用开源代码训练大型语言模型的（滥）用

本研究探讨使用未经授权的代码构建 LLMs 所带来的安全、隐私和版权问题，并提出了四条可行的建议。

Feb, 2023

为漏洞检测优化大型语言模型

本论文研究了使用大型语言模型进行源代码漏洞检测的结果，通过微调最先进的语言模型 WizardCoder，并在训练过程中进行了加速，通过处理类别不平衡问题，优化训练过程和方法，并在困难的漏洞检测数据集上改善性能，展示了通过微调大型预训练语言模型进行源代码分析任务的迁移学习的潜力。

Jan, 2024

LLM-in-the-loop：利用大型语言模型进行主题分析

使用 LLM-in-the-loop 人工智能协作框架进行主题分析，能够在减少人力和时间需求的同时，获得与人工编码者相似的编码质量。

Oct, 2023

CCT-Code: 多语言克隆检测与代码搜索的跨一致性训练

本文提出了一个新的多语言代码克隆检测问题，以及一种名为 cross-consistency training (CCT) 的新型训练程序和一种 CCT-LM 语言模型，该模型在不同编程语言的源代码上训练，在 POJ-104 代码克隆检测基准测试中实现了 95.67％的 MAP 和 AdvTest 代码搜索基准测试中的 47.18％MRR 最佳结果，并在新创建的多语言代码克隆检测基准测试 XCD 中展现出最好的成绩。

May, 2023

利用大型语言模型进行软件漏洞检测：综合基准研究

通过使用大型语言模型（LLMs）来辅助发现源代码中的漏洞，相比传统的静态分析工具，我们发现 LLMs 能够找出更多问题，提高漏洞检测的回溯率和 F1 分数，从而使得代码更加安全。

May, 2024

神经代码补全模型是否使用了我的代码？一种成员推断方法

我们研究了当前神经代码完成模型的法律和道德问题，通过使用会员推理方法来确定给定代码样本的成员身份。实验证明 LSTM 和 CodeGPT 模型存在会员泄露问题，而 CodeGen 和 StarCoder 模型的数据成员资格很难检测，有待进一步改进。

Apr, 2024