May, 2023

M4: 多发生器、多领域和多语言的黑盒机器生成文本检测

TL;DR本文介绍了一个大规模的文本检测数据集 M4,并利用该数据集实验了多种方法,发现在不同领域或用不同的大型语言模型生成的文本中,模型检测器倾向于将机器生成的文本误分类为人工书写的文本,并指出解决此问题仍有很多待改进的空间,M4 数据集将为以后研究提供优质的数据支持。