用于多生成器、多领域和多语言机器生成文本检测的细调大型语言模型

Jan, 2024

用于多生成器、多领域和多语言机器生成文本检测的细调大型语言模型

Fine-tuning Large Language Models for Multigenerator, Multidomain, and Multilingual Machine-Generated Text Detection

Feng Xiong, Thanet Markchom, Ziwei Zheng, Subin Jung, Varun Ojha...

TL;DRSemEval-2024 Task 8 引入了识别多语言和领域中大型语言模型（LLMs）生成的机器文本的挑战。本文关注于二元分类和多类分类的子任务，并通过传统机器学习和自然语言处理进行特征提取以及基于 LLMs 进行文本分类的两种方法进行解决，结果显示变压器模型，尤其是 LoRA-RoBERTa，在多语言环境中使用多数表决方法能够高效地识别机器生成的文本。

Abstract

semeval-2024 task 8 introduces the challenge of identifying machine-generated texts from diverse Large Language Models (LLMs) in various languages and domains. The task comprises three subtasks: binary classification

semeval-2024 task 8 machine-generated texts large language models (llms)binary classification multilingual contexts

发现论文，激发创造

SemEval-2024 任务 8：多领域、多模型和多语种机器生成文本检测

SemEval-2024 Task 8 的主要发现是多生成器、多领域和多语言的机器生成文本检测。

Apr, 2024

KInIT 参加 SemEval-2024 任务 8：用于多语言机器生成文本检测的细调 LLMs

SemEval-2024 任务 8 专注于多产生器、多领域和多语言黑盒机器生成文本检测，并应用语言识别和参数高效微调小型 LLM 进行文本分类，通过每种语言分类阈值校准将微调模型预测与统计检测指标相结合，提高系统检测性能的泛化能力，我们的方案取得了竞争力的结果，在第四名，仅比冠军低 1 个百分点。

Feb, 2024

SemEval-2024 任务 8：多领域机器生成文本检测技术的综合分析

本论文介绍了我们在 SemEval2024 Task8 中用于检测跨各个领域的机器生成文本的方法，包括统计、神经网络和预训练模型方法，并通过深入的错误分析评估了这些方法的有效性。在单语和多语境下，我们的方法在子任务 A 单语上获得 86.9％的准确率，在子任务 B 上获得 83.7％的准确率。此外，我们还强调了未来研究中的挑战和重要因素。

Mar, 2024

基于 Transformer 和混合深度学习模型的机器生成文本检测

该研究介绍了 UniBuc - NLP 团队应对 SemEval 2024 任务 8：多生成器、多领域和多语言黑盒机器生成文本检测的方法。我们探索了基于 transformer 和混合深度学习架构。其中，我们的基于 transformer 的模型在子任务 B 中以 86.95％的准确度在 77 个团队中取得了强势的第二名，展示了该架构在此任务中的适用性。然而，我们的模型在子任务 A 中显示出了过拟合的现象，这可能通过减少微调和增加最大序列长度来修复。对于子任务 C（标记级别分类），我们的混合模型在训练过程中出现了过拟合，影响了其检测人工文本和机器生成文本之间的转换能力。

May, 2024

增强多模态大型语言模型的子任务性能

通过选择多个预训练模型来完成相同子任务，本研究利用 LLM 整合多个预训练模型的结果，以提升 Multi-modal Large Language Model 的性能。实验结果充分证明了该方法在处理任务中的有效性。

Aug, 2023

PetKaz 参与 SemEval-2024 任务 8：语言学能够捕捉 LLM 生成文本的细节吗？

本文针对 SemEval-2024 任务 8“多生成器、多领域和多语种黑盒机器生成文本检测”，以英文机器生成文本（MGTs）的检测为重点，结合 RoBERTa-base 嵌入和多样性特征，利用重新采样的训练集，取得了第 124 名中的第 12 名，结果表明我们的方法在未见模型和领域上具有普适性，准确率达到 0.91。

Apr, 2024

M4: 多发生器、多领域和多语言的黑盒机器生成文本检测

本文介绍了一个大规模的文本检测数据集 M4，并利用该数据集实验了多种方法，发现在不同领域或用不同的大型语言模型生成的文本中，模型检测器倾向于将机器生成的文本误分类为人工书写的文本，并指出解决此问题仍有很多待改进的空间，M4 数据集将为以后研究提供优质的数据支持。

May, 2023

MasonTigers 在 SemEval-2024 第 8 任务上的性能分析：基于 Transformer 模型的机器生成文本检测

这篇论文介绍了 MasonTigers 参与 SemEval-2024 任务 8，即多生成器、多域和多语言黑盒机器生成文本检测。该任务包括二进制的人工书写 vs. 机器生成文本分类（A 轨道），多种机器生成文本分类（B 轨道）和人机混合文本检测（C 轨道）。我们最好的方法主要使用鉴别器转换模型的集成，以及句子转换模型和统计机器学习方法在特定情况下。此外，对于 A 轨道和 B 轨道，还使用了零样本提示和 FLAN-T5 的微调。

Mar, 2024

大型语言模型不是你所需的全部

本文描述了解决 SemEval 2023 Task 2：MultiCoNER II（多语言复杂命名实体识别）问题所构建的体系结构和系统。我们评估了两种方法：传统的条件随机场模型和经过自定义头部微调的大型语言模型（LLM），并比较了这两种方法。我们探索的新想法有：1）衰减辅助损失（带剩余项）- 在模型上训练粗粒度 NER 的辅助任务并将其包括在损失函数的一部分中；2）三元标记混合 - 探索在最终 NER 层中预测之前混合相邻标记的嵌入方式；3）任务最优头部 - 探索各种用于 LLM 最终层的自定义头部和学习率。我们还尝试了多个 LLM，包括 GPT-3，并在最终模型中使用了多种 dropout 和其他超参数设置，该模型在开发数据上达到了 0.85/0.84 的微观和宏观 F1 值，并在测试数据上达到了 0.67/0.61。我们证明，虽然预训练的 LLM 本身相对传统模型带来了很大的改进，但通过上述额外特征 / 损失 / 模型工程技术的增强，我们还可以显著提高宏观 F1 分数。

Jan, 2024

HU 参加 SemEval-2024 任务 8A：对比学习能否学习嵌入以检测机器生成的文本？

我们提出了一个基于对比学习的单一模型，通过数据增强和对比学习，在没有使用多个模型集合的情况下，达到与多模型相当的性能表现。

Feb, 2024