基于 Transformer 的集成模型对 AI 生成的文本进行检测
我们的研究通过将 Sci-BERT、DeBERTa 和 XLNet 等变形器模型与卷积神经网络 (CNNs) 进行集成,构建了一些分类模型,实验证明考虑的集成架构在分类方面的性能超过了单个变形器模型。此外,所提出的 SciBERT-CNN 集成模型在 ALTA 共享任务 2023 数据上产生了 98.36% 的 F1-score。
Oct, 2023
近期大型语言模型(LLMs)在各种风格和体裁的文本生成方面展示了惊人的能力。然而,这种能力容易被滥用,如虚假新闻生成、垃圾电子邮件创建以及在学术作业中的误用。因此,建立能够区分人工生成文本和人类作者文本的自动化方法至关重要。本文提出了一种简单而高效的解决方案,通过集成多个组成 LLM 的预测来解决这个问题。相较于以往基于困惑度或使用众多 LLM 的集成方法,我们的简化集成方法仅使用两个组成 LLM 即可达到可比较的性能。在四个生成文本分类基准数据集上进行的实验证明,与以往的最先进方法相比,性能提升范围在 0.5%到 100%之间。我们还研究了来自各个 LLM 的训练数据对模型性能的影响。结果表明,将商业限制的生成预训练变压器(GPT)数据替换为其他开放语言模型生成的数据,如 Falcon、Large Language Model Meta AI(LLaMA2)和 Mosaic Pretrained Transformers(MPT),是开发生成文本检测器的可行替代方法。此外,为了展示零 - shot 推广能力,我们在一个英语散文数据集上进行了实验,结果表明我们的集成方法可以有效处理新数据。
Nov, 2023
大语言模型生成文本内容的多样性接近于人类的能力,因此为了避免潜在的风险如社交媒体上的假新闻,需要有效的假文本检测。本研究通过在内部和外部分布数据集上测试五种专门的基于 Transformer 的模型来研究它们在 LLM 生成文本检测任务中的性能和泛化能力。结果表明,单个基于 Transformer 的分类器在内部数据集上取得了不错的性能,但在外部数据集上的泛化能力有限。为了改进这一点,我们使用自适应集成算法结合了个体分类器模型,将在内部测试集上的平均准确率从 91.8% 提高到 99.2%,在外部测试集上的准确率从 62.9% 提高到 72.5%。结果表明自适应集成算法在 LLM 生成文本检测中具有有效性、良好的泛化能力和巨大的潜力。
Mar, 2024
本文提出了一种新的令牌集合生成策略,用于挑战当前 AI 内容检测方法的鲁棒性。通过利用来自随机候选 LLMs 生成的下一个令牌完成提示,我们探索了集合攻击策略。我们发现令牌集合方法显著降低了 AI 内容检测模型的性能,揭示了令牌集合生成对当前检测模型构成重要挑战,并强调了推进检测技术以对抗复杂的敌对策略的需求。
Feb, 2024
本研究描述了我们参与 CERIST NLP Challenge 2022 的 hate speech detection 共享任务的情况,通过六种 transformer 模型和两种集成方法的组合来评估我们的实验效果。我们使用基于多数投票的组合方法在五倍交叉验证方案中取得了最佳结果。该方法在测试集上的评估表明,F1-score 为 0.60,准确度为 0.86。
Mar, 2023
通过引入基于堆叠集成的多文本分类方法来解决单一分类器的欠拟合和偏差限制,结合 BERT、ELECTRA、DistilBERT、RoBERTa 等多个转换器模型,在真实客户评论数据集上进行实验评估,验证了该方法在提高准确性和鲁棒性方面的有效性和优越性,证明了使用转换器的堆叠集成的多文本分类方法是从客户评论中提取有价值的见解并作出数据驱动决策以提升客户满意度和推动持续改进的有前途的解决方案。
Aug, 2023
通过应用集成方法来检测大语言模型(LLM)产生的机器生成文本的问题,并找到简单的 DetectGPT 子模型输出的摘要统计数据在保持其零 - shot 性的同时获得 0.73 的 AUROC(相对于 0.61),受监督学习方法可以将准确性提升到 0.94 的 AUROC,但需要一个训练数据集,这表明进一步推广的可能性以创建高准确度、不依赖模型的机器生成文本检测器。
Jun, 2024
该论文讨论了在第三届学术文档处理研讨会上开展的 DAGPap22 共享任务中开发的神经模型,侧重于比较不同的基于 transformer 的模型并使用附加数据集和技术来处理不平衡的类别,在提交最终版本时,我们使用经过随机过采样技术微调的 SciBERT,RoBERTa 和 DeBERTa 集成模型达到了 99.24% 的 F1 得分,官方评估结果将我们的系统排在第三位。
Sep, 2022
我们在本文中重点介绍了我们为《2023 年阿拉伯语 AI 任务评估(ArAiEval)共享任务》开展的方法。我们提出了针对共享任务的任务 1-A 和任务 2-A 的方法,重点是说服技巧检测和虚假信息检测。检测说服技巧和虚假信息已成为避免真实信息扭曲的必要手段。该任务使用多种体裁的推文和新闻文章来进行给定的二元分类问题。我们尝试了在阿拉伯语上预训练的几种基于 Transformer 的模型,并在提供的数据集上进行了微调。我们采用集成方法来提高系统的性能。我们在任务 1-A 上获得了 0.742 的微平均 F1 分数(排行榜第 8),在任务 2-A 上获得了 0.901 的微平均 F1 分数(排行榜第 7)。
Nov, 2023
该研究论文描述了 UPB 团队在 IberLEF-2023 的 AuTexTification 共享任务中提交的解决方案,主要使用基于 Transformer 的深度学习模型以及多任务学习等训练技术,最佳模型在英语和西班牙语数据集上分别达到了 66.63% 和 67.10% 的宏 F1 分数。
Aug, 2023