自适应精调 Transformer 集成模型用于 LLM 生成文本检测

Mar, 2024

自适应精调 Transformer 集成模型用于 LLM 生成文本检测

Adaptive Ensembles of Fine-Tuned Transformers for LLM-Generated Text Detection

Zhixin Lai, Xuesheng Zhang, Suiyao Chen

TL;DR大语言模型生成文本内容的多样性接近于人类的能力，因此为了避免潜在的风险如社交媒体上的假新闻，需要有效的假文本检测。本研究通过在内部和外部分布数据集上测试五种专门的基于 Transformer 的模型来研究它们在 LLM 生成文本检测任务中的性能和泛化能力。结果表明，单个基于 Transformer 的分类器在内部数据集上取得了不错的性能，但在外部数据集上的泛化能力有限。为了改进这一点，我们使用自适应集成算法结合了个体分类器模型，将在内部测试集上的平均准确率从 91.8% 提高到 99.2%，在外部测试集上的准确率从 62.9% 提高到 72.5%。结果表明自适应集成算法在 LLM 生成文本检测中具有有效性、良好的泛化能力和巨大的潜力。

Abstract

large language models (LLMs) have reached human-like proficiency in generating diverse textual content, underscoring the necessity for effective fake text detection to avoid potential risks such as fake news in s

large language models fake text detection transformer-based models in-distribution dataset out-of-distribution dataset

发现论文，激发创造

一个简单而高效的集成方法用于 AI 生成文本检测

近期大型语言模型（LLMs）在各种风格和体裁的文本生成方面展示了惊人的能力。然而，这种能力容易被滥用，如虚假新闻生成、垃圾电子邮件创建以及在学术作业中的误用。因此，建立能够区分人工生成文本和人类作者文本的自动化方法至关重要。本文提出了一种简单而高效的解决方案，通过集成多个组成 LLM 的预测来解决这个问题。相较于以往基于困惑度或使用众多 LLM 的集成方法，我们的简化集成方法仅使用两个组成 LLM 即可达到可比较的性能。在四个生成文本分类基准数据集上进行的实验证明，与以往的最先进方法相比，性能提升范围在 0.5％到 100％之间。我们还研究了来自各个 LLM 的训练数据对模型性能的影响。结果表明，将商业限制的生成预训练变压器（GPT）数据替换为其他开放语言模型生成的数据，如 Falcon、Large Language Model Meta AI（LLaMA2）和 Mosaic Pretrained Transformers（MPT），是开发生成文本检测器的可行替代方法。此外，为了展示零 - shot 推广能力，我们在一个英语散文数据集上进行了实验，结果表明我们的集成方法可以有效处理新数据。

Nov, 2023

基于 Transformer 与卷积神经网络结合的集成方法用于检测人工生成文本

我们的研究通过将 Sci-BERT、DeBERTa 和 XLNet 等变形器模型与卷积神经网络 (CNNs) 进行集成，构建了一些分类模型，实验证明考虑的集成架构在分类方面的性能超过了单个变形器模型。此外，所提出的 SciBERT-CNN 集成模型在 ALTA 共享任务 2023 数据上产生了 98.36% 的 F1-score。

Oct, 2023

基于集成 LLM 方法的生成式人工智能文本分类

本文提出了一种集成神经模型以检测大型语言模型生成的语言，并对模型进行归因的方法。

Sep, 2023

基于 Transformer 深度学习算法的大型语言模型（LLM）AI 文本生成检测

通过基于 Transformer 模型的 LLM AI 文本生成检测工具，提高 AI 文本生成检测的准确性并为后续研究提供参考；通过深度学习模型的训练和验证，表明该模型对 AI 生成文本具有良好的检测和分类能力，并具有广泛应用前景。

Apr, 2024

用于多生成器、多领域和多语言机器生成文本检测的细调大型语言模型

SemEval-2024 Task 8 引入了识别多语言和领域中大型语言模型（LLMs）生成的机器文本的挑战。本文关注于二元分类和多类分类的子任务，并通过传统机器学习和自然语言处理进行特征提取以及基于 LLMs 进行文本分类的两种方法进行解决，结果显示变压器模型，尤其是 LoRA-RoBERTa，在多语言环境中使用多数表决方法能够高效地识别机器生成的文本。

Jan, 2024

适应大语言模型时代的假新闻检测

本文研究了大型语言模型时代中的假新闻检测问题，发现仅训练于人工编写文章的检测器在检测机器生成的假新闻方面表现良好，但反之不成立。此外，由于检测器对机器生成的文本存在偏见，需要在训练集中使用比测试集中较低比例的机器生成新闻。基于我们的发现，我们提供了一个实用的策略来开发健壮的假新闻检测器。

Nov, 2023

大型语言模型生成的文本受到假新闻检测器的偏见

在大语言模型 (LLMs) 时代，我们发现许多现有的假新闻检测器存在显著偏见，更容易将 LLMs 生成的内容标记为假新闻，而常常误将人类撰写的假新闻分类为真实。为了解决这个问题，我们引入了一种对抗训练与 LLMs 重写的真实新闻相结合的缓解策略，从而在人类和 LLMs 生成的新闻的检测准确性方面取得了显著的改进。为了进一步推动该领域的研究，我们发布了两个全面的数据集 “GossipCop++” 和 “PolitiFact++”，将经人工验证的文章与 LLMs 生成的假新闻和真实新闻相结合。

Sep, 2023

应用集成方法进行模型无关的机器生成文本检测

通过应用集成方法来检测大语言模型（LLM）产生的机器生成文本的问题，并找到简单的 DetectGPT 子模型输出的摘要统计数据在保持其零 - shot 性的同时获得 0.73 的 AUROC（相对于 0.61），受监督学习方法可以将准确性提升到 0.94 的 AUROC，但需要一个训练数据集，这表明进一步推广的可能性以创建高准确度、不依赖模型的机器生成文本检测器。

Jun, 2024

基于 Transformer 的集成模型对 AI 生成的文本进行检测

本论文介绍了我们团队 “SynthDetectives” 在 ALTA 2023 共享任务中的提交情况。我们采用了一种堆叠 Transformer 模型的方法来实现 AI 生成文本的检测任务。我们的方法在模型选择上是新颖的，因为我们使用了易于访问和轻量级的模型进行集成。我们展示了模型集成相比单独使用模型能够提高准确性的结果。在共享任务组织者提供的官方测试数据上，我们的方法达到了 0.9555 的准确得分。

Oct, 2023

SemEval-2024 任务 8：多领域机器生成文本检测技术的综合分析

本论文介绍了我们在 SemEval2024 Task8 中用于检测跨各个领域的机器生成文本的方法，包括统计、神经网络和预训练模型方法，并通过深入的错误分析评估了这些方法的有效性。在单语和多语境下，我们的方法在子任务 A 单语上获得 86.9％的准确率，在子任务 B 上获得 83.7％的准确率。此外，我们还强调了未来研究中的挑战和重要因素。

Mar, 2024