当自动评估遇上自动内容生成：审视 GPT 时代的文本质量

Sep, 2023

当自动评估遇上自动内容生成：审视 GPT 时代的文本质量

When Automated Assessment Meets Automated Content Generation: Examining Text Quality in the Era of GPTs

Marialena Bevilacqua, Kezia Oketch, Ruiyang Qin, Will Stamey, Xinyuan Zhang...

TL;DR基于机器学习模型对文本数据进行评分的使用已广泛应用于自然语言处理、信息检索、搜索和推荐以及在线内容的可信度评估等领域。这项研究通过实证评估以人工创作和生成预训练变换器（GPT）的文本评估模型之间的差异，发现转换器预训练语言模型（PLM）相对于传统的深度学习和基于特征的机器学习模型更准确地评分人工文本质量，但相对于人工创作的文档，GPT 生成的文本评分平均要高出 10-15％。这一研究对于文本分类设置中的自动评分受到生成 AI 的干扰具有重要的意义。

Abstract

The use of machine learning (ML) models to assess and score textual data has become increasingly pervasive in an array of contexts including natural language processing, information retrieval, search and recommen

machine learning textual data ml models essay scoring transformer plms

发现论文，激发创造

GPTScore：任意评估

本文提出了一种新的评估框架 GPTScore，利用生成预训练模型的崭新能力对生成的文本进行评分，实验结果表明该方法能够高效地实现对文本的定制化、多方面评估，不需要注解样本。

Feb, 2023

从自动化到增强：大语言模型提升作文评分领域

研究调查了大型语言模型（LLMs），特别是 GPT-4 和经过精细调整的 GPT-3.5 作为自动作文评分（AES）系统的工具的有效性。实验结果显示 LLM-based AES 系统具有卓越的准确性、一致性、泛化能力和可解释性，并超越传统评分模型，同时也提高人工评分员的表现。

Jan, 2024

利用机器学习区分人类生成文本和 ChatGPT 生成的文本

本研究提出了一种基于机器学习的解决方案，可以识别 ChatGPT 生成的文本，并在分类过程中比较分析了共 11 种机器学习和深度学习算法。在 Kaggle 数据集上测试，该算法在由 GPT-3.5 生成的语料库上表现出 77% 的准确率。

May, 2023

人工和人类生成文本的分类：对 ChatGPT 的特征研究

我们的研究旨在探索传统和新的特征，以便 (1) 检测 AI 生成的文本和 (2) 由 AI 改写的文本。结果显示，新特征显著提高了许多分类器的性能。我们最好的基本文本改写检测系统在 F1 分数上超过了 GPTZero 的 183.8%。

Aug, 2023

大型语言模型作为英文写作自动评分工具的实证研究__以托福独立写作任务为例

ChatGPT 以小样本的实验方法，通过对英文作文的自动评估，揭示了其在自动化作文评分方面的能力和限制，尽管结果存在回归效应，但有效的 ChatGPT 提示的设计和实施需要深厚的领域专业知识和技术能力。

Jan, 2024

突破图灵：检测机器生成文本方法的比较分析

通过对三种不同方法进行深入评估，即传统的浅层学习、语言模型（LM）微调和多语言模型微调，本文对文本生成的重要性有了显著进展，尤其是在区分人类和机器生成文本方面，结果表明这些方法在性能上存在显著差异，强调了在自然语言处理领域中继续推进的重要性，为未来创造强大且具有高度辨别力的模型铺平了道路。

Nov, 2023

机器生成的文本能被有效识别，能否训练语言模型避免被识别？

使用预训练的生成模型，比如 GPT-3、GPT-NeoX 或 OPT，将人工生成的文本与机器生成的文本相区分的重要性逐渐增加。我们通过改善五个不同的语言模型来生成合成推文，并发现浅层学习分类算法（如朴素贝叶斯）在检测准确率方面达到了 0.6 至 0.8 之间的水平。与基于人类的检测相比，浅层学习分类器在使用较高温度值进行文本生成时的检测准确率较低。人类更注重语言可接受性，而较低温度值下的可接受性更高。相比之下，基于转换器的分类器具有 0.9 及以上的准确度。我们发现使用强化学习方法改进生成模型可以成功逃避 BERT-based 分类器，使其检测准确率达到 0.15 或更低。

Oct, 2023

改述检测：人类与机器内容

本文旨在分析大型语言模型如 GPT-4 和 ChatGPT 等的语言生成和改写能力的特点和限制及其对学术诚信的挑战，探讨人工改写和机器改写之间的区别，并对常用的数据集进行综合分析和评估，结果显示自动生成文本的水平仍不及人类普及水平，适合于语义多样性语料的 TF-IDF 方法的效果最好，同时，发现了四个语义多样性和挑战性最高的数据集。

Mar, 2023

使用深度学习的机器生成文本检测

我们的研究重点是辨别大型语言模型生成的文本与人类生成的文本之间的关键挑战，这在各种应用中具有重要意义。通过评估我们的模型在多个数据集上的性能，包括 Twitter 情感、足球评论、项目古腾堡文库、PubMedQA 和 SQuAD，我们提供了支持此类模型可行性的证据。这些数据集在复杂约束下进行了采样，涵盖了各种可能性，为未来研究奠定了基础。我们对 GPT-3.5-Turbo 与 SVM、RoBERTa-base 和 RoBERTa-large 等各种检测器进行了评估，基于研究结果，结果主要与句子的序列长度有关。

Nov, 2023

机器生成文本的检测：文献综述

研究概述了语言模型产生的虚假文本、媒体关注度、自然语言生成、社会意义等关键词，同时探索了机器产生文本的趋势和更大的社会影响。

Jan, 2024