SMLT-MUGC:小型、中型和大型文本——机器与用户生成内容的检测与比较

Jun, 2024

SMLT-MUGC:小型、中型和大型文本——机器与用户生成内容的检测与比较

SMLT-MUGC: Small, Medium, and Large Texts -- Machine versus User-Generated Content Detection and Comparison

Anjali Rawal, Hui Wang, Youjia Zheng, Yu-Hsuan Lin, Shanu Sushmita

TL;DR对于理解大型语言模型的能力和缓解可能带来的后果，识别由大型语言模型生成的文本至关重要。通过分析不同长度的数据集（小、中、大）以及比较机器学习算法在不同数据集上的性能表现，本研究发现，对于参数非常庞大（比如1542亿参数的GPT2的XL-1542变种）的大型语言模型生成的文本，使用传统机器学习方法更难检测（准确率为74%）；然而，对于参数较小（不超过7.62亿）的大型语言模型生成的文本，可以以高准确率（96%及以上）进行检测。本研究还分析了人工与机器生成的文本在语言学、个性、情感、偏见和道德等多个维度上的特点，发现机器生成的文本通常具有更高的可读性和与人类道德判断相似的倾向，但在个性特征上存在差异。而支持向量机（SVM）和投票分类器（VC）模型在大多数数据集上都表现出较高性能，而决策树（DT）模型表现最低。当处理重新表述的文本时，特别是长度较短的文本（如推文），模型性能下降。本研究强调了检测大型语言模型生成的文本的挑战和重要性，并为未来研究提供了改进检测方法和理解大型语言模型细微能力的方向。

Abstract

large language models (LLMs) have gained significant attention due to their ability to mimic human language. Identifying texts generated by LLMs is crucial for understanding their capabilities and mitigating potential consequences. This paper analyzes datasets of varying text lengths:

发现论文，激发创造

小型语言模型更适合于黑盒子机器生成文本检测

本研究旨在通过训练检测器以区分生成文本与人类编写文本，并发现适用于小且部分训练的生成模型更易检测。检测器与生成器是否基于相同数据不影响检测结果。

May, 2023

模仿游戏：在大型语言模型时代检测人类和AI生成的文本

通过对人类写作文本和基于大型语言模型的生成文本进行比较研究，该论文展示了在不同文体中对于人类文本和生成文本进行分类的机器学习模型的效果，同时指出在故事写作方面识别生成文本的困难性，为未来在人工智能文本识别方面提供了启示和研究数据集。

Jul, 2023

从文本到来源：大型语言模型生成内容的检测结果

通过探索跨模型检测、模型归因以及分类器的效果与模型规模之间的关系，该研究在大型语言模型的使用中提供了宝贵的见解。

Sep, 2023

基于LLM的文本检测调查：必要性、方法和未来方向

大语言模型生成的文本检测是一项关键任务，需要开发检测器来区分其文本是否由大语言模型生成，并呼吁加强相关研究以推进负责任的人工智能实现。

Oct, 2023

使用深度学习的机器生成文本检测

我们的研究重点是辨别大型语言模型生成的文本与人类生成的文本之间的关键挑战，这在各种应用中具有重要意义。通过评估我们的模型在多个数据集上的性能，包括Twitter情感、足球评论、项目古腾堡文库、PubMedQA和SQuAD，我们提供了支持此类模型可行性的证据。这些数据集在复杂约束下进行了采样，涵盖了各种可能性，为未来研究奠定了基础。我们对GPT-3.5-Turbo与SVM、RoBERTa-base和RoBERTa-large等各种检测器进行了评估，基于研究结果，结果主要与句子的序列长度有关。

Nov, 2023

解读文本真实性：通过大语言语义的普遍策略来检测人类与机器生成的文本

通过引入一个新的系统T5LLMCipher，结合预训练的T5编码器和LLM嵌入子聚类，我们在9个不同生成器和领域中评估了我们的方法，并发现与现有方法相比，我们的方法在看不见的生成器和领域中对机器生成的文本的F1得分平均提高了19.6％，正确属性文本的生成器的准确率达到93.6％。

Jan, 2024

使用公共社交媒体数据评估大型语言模型在健康相关文本分类任务中的性能

我们评估了多种模型，包括传统机器学习模型、预训练语言模型和大型语言模型，比较它们在社交媒体健康相关自然语言处理任务中的性能。实验结果表明，使用大型语言模型进行数据增强可以获得比仅使用人工标注数据训练的模型更好的结果，并且传统的有监督学习模型在零样本设置中也表现出优于大型语言模型的性能。

Mar, 2024

MUGC: 机器生成与用户生成内容检测

比较了八种传统机器学习算法来区分机器生成数据和人类生成数据，结果表明传统方法在识别机器生成数据方面具有较高准确度。机器生成的文本相比人类生成的内容更短且词汇较少，而特定领域相关关键词可能导致这种高准确度，通过word2vec等深层次词表示可以捕捉微妙的语义差异。同时，可读性、偏见、道德和情感对比显示出机器生成内容与人类生成内容的明显差异，研究为机器生成内容在各个领域的进展能力和挑战提供了有价值的见解。

Mar, 2024

揭示冒充者: 领域内检测人类与机器生成的推文

使用 Twitter 数据集检验了四个大型语言模型的生成能力，发现领域内的精细调整和去除审查可显著降低自动检测方法的效果，揭示了细调和内容监管对机器生成的文本检测的影响。

Jun, 2024

LLM-DetectAIve：用于细粒度机器生成文本检测的工具

本研究解决了在教育和学术领域中难以区分人类创作文本和机器生成文本的问题。提出的LLM-DetectAIve系统通过引入四类文本分类，提供了对文本创作过程中大语言模型干预程度的深入洞察。实验结果表明，该工具能够有效识别文本的作者身份，促进教育和学术诚信的提升。

Aug, 2024