Oct, 2023

关于机器生成文本检测器的零样本泛化

TL;DR大型语言模型的广泛发展使得检测机器生成的文本变得前所未有的重要。本研究通过收集大范围的语言模型生成数据,训练神经检测器并测试其在未经训练的生成器输出上的性能,发现中等规模语言模型训练的检测器能够零样本推广到更大的版本。作为一个具体的应用,我们证明了可以在中等规模模型的训练数据集合上构建强大的检测器。