KInIT 参加 SemEval-2024 任务 8:用于多语言机器生成文本检测的细调 LLMs
SemEval-2024 Task 8 引入了识别多语言和领域中大型语言模型(LLMs)生成的机器文本的挑战。本文关注于二元分类和多类分类的子任务,并通过传统机器学习和自然语言处理进行特征提取以及基于 LLMs 进行文本分类的两种方法进行解决,结果显示变压器模型,尤其是 LoRA-RoBERTa,在多语言环境中使用多数表决方法能够高效地识别机器生成的文本。
Jan, 2024
本论文介绍了我们在 SemEval2024 Task8 中用于检测跨各个领域的机器生成文本的方法,包括统计、神经网络和预训练模型方法,并通过深入的错误分析评估了这些方法的有效性。在单语和多语境下,我们的方法在子任务 A 单语上获得 86.9%的准确率,在子任务 B 上获得 83.7%的准确率。此外,我们还强调了未来研究中的挑战和重要因素。
Mar, 2024
本文针对 SemEval-2024 任务 8“多生成器、多领域和多语种黑盒机器生成文本检测”,以英文机器生成文本(MGTs)的检测为重点,结合 RoBERTa-base 嵌入和多样性特征,利用重新采样的训练集,取得了第 124 名中的第 12 名,结果表明我们的方法在未见模型和领域上具有普适性,准确率达到 0.91。
Apr, 2024
我们引入了一个新的基准数据集 MULTITuDE,用于多语言机器生成文本检测,包括 11 种语言(ar,ca,cs,de,en,es,nl,pt,ru,uk 和 zh)的 74,081 个真实和机器生成的文本,由 8 个多语言 LLM 生成。利用这个基准,我们比较了零样本(统计和黑盒)和微调检测器的性能,并考虑多语言性,评估了这些检测器在未见过的语言(语言相似和不相似)和未见过的 LLMs 上的泛化性和这些检测器在培训多种语言时是否提高了性能。
Oct, 2023
本文提出了在 SemEval 2023 任务 3 的子任务 3 中检测说服技巧的最佳解决方案,主要是通过细调预训练的基于 Transformer 的语言模型来处理多语言输入数据和多个预测标签,该方案使用大型的跨语言模型(XLM-RoBERTa 大型模型)在所有输入数据上联合训练,而且针对已知语言和未知语言分别设置合理的置信度阈值,最终在 9 种语言中的 6 种语言上(包括两个未知语言)表现最优秀并取得了高度竞争的结果。
Apr, 2023
我们提出了一个基于对比学习的单一模型,通过数据增强和对比学习,在没有使用多个模型集合的情况下,达到与多模型相当的性能表现。
Feb, 2024
本文介绍了一个大规模的文本检测数据集 M4,并利用该数据集实验了多种方法,发现在不同领域或用不同的大型语言模型生成的文本中,模型检测器倾向于将机器生成的文本误分类为人工书写的文本,并指出解决此问题仍有很多待改进的空间,M4 数据集将为以后研究提供优质的数据支持。
May, 2023
通过引入多语言、多领域和多发生器的机器生成文本检测基准 M4GT-Bench,本研究解决了识别和区分机器生成文本与人类生成文本的问题,包括单语和多语二元机器生成文本检测、多类别检测以确定生成文本具体使用的模型以及在人机混合文本中确定生成文本与人类编写内容之间的边界的挑战。
Feb, 2024
本文介绍了 QUST 团队参与 SemEval 2024 任务 8 的研究,通过数据增强和清洗来提高模型训练效率和准确性,评估了传统的深度学习方法、多尺度正负未标记框架(MPU)、微调、适配器和集成方法,并选择了在单语任务中准确性最高的模型,在子任务 A 和 B 中进行评估。最终模型构建采用了将微调与 MPU 相结合的堆叠集成方法。我们的系统在多语言设置下的子任务 A 官方测试集中获得第八名(准确性得分第 13 名),我们在此链接发布了系统代码。
Feb, 2024