Jul, 2024

通过知识图谱比较确保大型语言模型训练数据的负责任采购

TL;DR我们提出了一种新颖的系统,是一个剽窃检测系统的变种,用于评估知识源是否在大型语言模型的训练或微调中使用。与现有方法不同,我们利用资源描述框架(RDF)三元组从源文件和大型语言模型的延续中创建知识图。通过使用余弦相似度和归一化版本的图编辑距离分析这些图像的内容和结构,显示了同构的程度。此外,我们的方法不需要访问LLM指标,如迷惑度,因为在封闭的大型语言建模“黑盒”系统中可能无法获得此类指标,也不需要访问训练语料库。我们系统的原型将在一个带有超链接的GitHub存储库中找到。