用于多生成器、多领域和多语言机器生成文本检测的细调大型语言模型
SemEval-2024 任务 8 专注于多产生器、多领域和多语言黑盒机器生成文本检测,并应用语言识别和参数高效微调小型 LLM 进行文本分类,通过每种语言分类阈值校准将微调模型预测与统计检测指标相结合,提高系统检测性能的泛化能力,我们的方案取得了竞争力的结果,在第四名,仅比冠军低 1 个百分点。
Feb, 2024
本论文介绍了我们在 SemEval2024 Task8 中用于检测跨各个领域的机器生成文本的方法,包括统计、神经网络和预训练模型方法,并通过深入的错误分析评估了这些方法的有效性。在单语和多语境下,我们的方法在子任务 A 单语上获得 86.9%的准确率,在子任务 B 上获得 83.7%的准确率。此外,我们还强调了未来研究中的挑战和重要因素。
Mar, 2024
该研究介绍了 UniBuc - NLP 团队应对 SemEval 2024 任务 8:多生成器、多领域和多语言黑盒机器生成文本检测的方法。我们探索了基于 transformer 和混合深度学习架构。其中,我们的基于 transformer 的模型在子任务 B 中以 86.95%的准确度在 77 个团队中取得了强势的第二名,展示了该架构在此任务中的适用性。然而,我们的模型在子任务 A 中显示出了过拟合的现象,这可能通过减少微调和增加最大序列长度来修复。对于子任务 C(标记级别分类),我们的混合模型在训练过程中出现了过拟合,影响了其检测人工文本和机器生成文本之间的转换能力。
May, 2024
通过选择多个预训练模型来完成相同子任务,本研究利用 LLM 整合多个预训练模型的结果,以提升 Multi-modal Large Language Model 的性能。实验结果充分证明了该方法在处理任务中的有效性。
Aug, 2023
本文针对 SemEval-2024 任务 8“多生成器、多领域和多语种黑盒机器生成文本检测”,以英文机器生成文本(MGTs)的检测为重点,结合 RoBERTa-base 嵌入和多样性特征,利用重新采样的训练集,取得了第 124 名中的第 12 名,结果表明我们的方法在未见模型和领域上具有普适性,准确率达到 0.91。
Apr, 2024
本文介绍了一个大规模的文本检测数据集 M4,并利用该数据集实验了多种方法,发现在不同领域或用不同的大型语言模型生成的文本中,模型检测器倾向于将机器生成的文本误分类为人工书写的文本,并指出解决此问题仍有很多待改进的空间,M4 数据集将为以后研究提供优质的数据支持。
May, 2023
这篇论文介绍了 MasonTigers 参与 SemEval-2024 任务 8,即多生成器、多域和多语言黑盒机器生成文本检测。该任务包括二进制的人工书写 vs. 机器生成文本分类(A 轨道),多种机器生成文本分类(B 轨道)和人机混合文本检测(C 轨道)。我们最好的方法主要使用鉴别器转换模型的集成,以及句子转换模型和统计机器学习方法在特定情况下。此外,对于 A 轨道和 B 轨道,还使用了零样本提示和 FLAN-T5 的微调。
Mar, 2024
本文描述了解决 SemEval 2023 Task 2:MultiCoNER II(多语言复杂命名实体识别)问题所构建的体系结构和系统。我们评估了两种方法:传统的条件随机场模型和经过自定义头部微调的大型语言模型(LLM),并比较了这两种方法。我们探索的新想法有:1)衰减辅助损失(带剩余项)- 在模型上训练粗粒度 NER 的辅助任务并将其包括在损失函数的一部分中;2)三元标记混合 - 探索在最终 NER 层中预测之前混合相邻标记的嵌入方式;3)任务最优头部 - 探索各种用于 LLM 最终层的自定义头部和学习率。我们还尝试了多个 LLM,包括 GPT-3,并在最终模型中使用了多种 dropout 和其他超参数设置,该模型在开发数据上达到了 0.85/0.84 的微观和宏观 F1 值,并在测试数据上达到了 0.67/0.61。我们证明,虽然预训练的 LLM 本身相对传统模型带来了很大的改进,但通过上述额外特征 / 损失 / 模型工程技术的增强,我们还可以显著提高宏观 F1 分数。
Jan, 2024
我们提出了一个基于对比学习的单一模型,通过数据增强和对比学习,在没有使用多个模型集合的情况下,达到与多模型相当的性能表现。
Feb, 2024