Nov, 2023

AuthentiGPT:通过黑盒语言模型去噪检测机器生成文本

TL;DR鉴于大型语言模型(LLMs)在同时提供巨大机遇的同时也引发了伦理困境,我们提出了 AuthentiGPT,这是一个有效的分类器,用于区分机器生成的和人类编写的文本。通过给输入文本添加人工噪声,并在语义上比较去噪后的文本与原始文本,AuthentiGPT 利用了黑盒 LLM 来消除输入文本的噪声,以判断内容是否为机器生成。通过只有一个可训练参数,AuthentiGPT 消除了需要大量训练数据集、对 LLM 输出进行水印处理或计算对数似然的需求。在特定领域数据集上具有 0.918 AUROC 分数的 AuthentiGPT 表明其在检测学术环境中的机器生成文本方面的有效性,并凸显了它的潜力。