Dec, 2023

基于统计的深度检测机器生成文本

TL;DR我们介绍了 STADEE,一种基于统计数据的深度检测方法,用于识别机器生成的文本,解决了当前方法在依赖大量微调预训练语言模型方面的局限性。STADEE 将关键的统计文本特征与深度分类器相结合,重点关注诸如标记概率和累积概率等方面,这对于处理核心采样非常关键。在不同的数据集和场景(领域内、领域外和实际环境)中进行测试,STADEE 表现出优异的性能,在领域内达到了 87.05% 的 F1 得分,并且在传统统计方法和微调预训练语言模型方面都表现出色,特别是在领域外和实际环境中,突显了其有效性和普适性。