Sep, 2023

当自动评估遇上自动内容生成:审视 GPT 时代的文本质量

TL;DR基于机器学习模型对文本数据进行评分的使用已广泛应用于自然语言处理、信息检索、搜索和推荐以及在线内容的可信度评估等领域。这项研究通过实证评估以人工创作和生成预训练变换器(GPT)的文本评估模型之间的差异,发现转换器预训练语言模型(PLM)相对于传统的深度学习和基于特征的机器学习模型更准确地评分人工文本质量,但相对于人工创作的文档,GPT 生成的文本评分平均要高出 10-15%。这一研究对于文本分类设置中的自动评分受到生成 AI 的干扰具有重要的意义。