Feb, 2024

未经我同意训练:检测编码包含在源代码训练模型中

TL;DR为解决通过训练集成员推理来检测大型语言模型(LLMs)中代码包含的版权问题,作者提出了一种新方法 TraWiC,该方法是一种适用于任何模型且可解释的检测代码包含的方法。在实验证明,TraWiC 可以检测到 83.87% 的用于训练 LLM 的代码,而普通的克隆检测工具 NiCad 只能检测到 47.64%。此外,TraWiC 在资源消耗方面较低。