SemEval-2024 任务 8:多领域、多模型和多语种机器生成文本检测
SemEval-2024 Task 8 引入了识别多语言和领域中大型语言模型(LLMs)生成的机器文本的挑战。本文关注于二元分类和多类分类的子任务,并通过传统机器学习和自然语言处理进行特征提取以及基于 LLMs 进行文本分类的两种方法进行解决,结果显示变压器模型,尤其是 LoRA-RoBERTa,在多语言环境中使用多数表决方法能够高效地识别机器生成的文本。
Jan, 2024
本论文介绍了我们在 SemEval2024 Task8 中用于检测跨各个领域的机器生成文本的方法,包括统计、神经网络和预训练模型方法,并通过深入的错误分析评估了这些方法的有效性。在单语和多语境下,我们的方法在子任务 A 单语上获得 86.9%的准确率,在子任务 B 上获得 83.7%的准确率。此外,我们还强调了未来研究中的挑战和重要因素。
Mar, 2024
SemEval-2024 任务 8 专注于多产生器、多领域和多语言黑盒机器生成文本检测,并应用语言识别和参数高效微调小型 LLM 进行文本分类,通过每种语言分类阈值校准将微调模型预测与统计检测指标相结合,提高系统检测性能的泛化能力,我们的方案取得了竞争力的结果,在第四名,仅比冠军低 1 个百分点。
Feb, 2024
该研究介绍了 UniBuc - NLP 团队应对 SemEval 2024 任务 8:多生成器、多领域和多语言黑盒机器生成文本检测的方法。我们探索了基于 transformer 和混合深度学习架构。其中,我们的基于 transformer 的模型在子任务 B 中以 86.95%的准确度在 77 个团队中取得了强势的第二名,展示了该架构在此任务中的适用性。然而,我们的模型在子任务 A 中显示出了过拟合的现象,这可能通过减少微调和增加最大序列长度来修复。对于子任务 C(标记级别分类),我们的混合模型在训练过程中出现了过拟合,影响了其检测人工文本和机器生成文本之间的转换能力。
May, 2024
本文针对 SemEval-2024 任务 8“多生成器、多领域和多语种黑盒机器生成文本检测”,以英文机器生成文本(MGTs)的检测为重点,结合 RoBERTa-base 嵌入和多样性特征,利用重新采样的训练集,取得了第 124 名中的第 12 名,结果表明我们的方法在未见模型和领域上具有普适性,准确率达到 0.91。
Apr, 2024
本文介绍了一个大规模的文本检测数据集 M4,并利用该数据集实验了多种方法,发现在不同领域或用不同的大型语言模型生成的文本中,模型检测器倾向于将机器生成的文本误分类为人工书写的文本,并指出解决此问题仍有很多待改进的空间,M4 数据集将为以后研究提供优质的数据支持。
May, 2023
我们提出了一个基于对比学习的单一模型,通过数据增强和对比学习,在没有使用多个模型集合的情况下,达到与多模型相当的性能表现。
Feb, 2024
我们引入了一个新的基准数据集 MULTITuDE,用于多语言机器生成文本检测,包括 11 种语言(ar,ca,cs,de,en,es,nl,pt,ru,uk 和 zh)的 74,081 个真实和机器生成的文本,由 8 个多语言 LLM 生成。利用这个基准,我们比较了零样本(统计和黑盒)和微调检测器的性能,并考虑多语言性,评估了这些检测器在未见过的语言(语言相似和不相似)和未见过的 LLMs 上的泛化性和这些检测器在培训多种语言时是否提高了性能。
Oct, 2023
本研究是 2022 年 Dialogue Evaluation 活动中的人工文本检测任务的一部分,利用 14 个文本生成器包括一个人类写手和 13 个针对机器翻译、改写、文本摘要、文本简化等自然语言生成任务进行了微调的模型,通过二元分类和多类分类确定文本是否为自动生成以及找到其作者,得出的结果对现有基线方法进行了优化。
Jun, 2022
这篇论文介绍了 MasonTigers 参与 SemEval-2024 任务 8,即多生成器、多域和多语言黑盒机器生成文本检测。该任务包括二进制的人工书写 vs. 机器生成文本分类(A 轨道),多种机器生成文本分类(B 轨道)和人机混合文本检测(C 轨道)。我们最好的方法主要使用鉴别器转换模型的集成,以及句子转换模型和统计机器学习方法在特定情况下。此外,对于 A 轨道和 B 轨道,还使用了零样本提示和 FLAN-T5 的微调。
Mar, 2024