May, 2024

基于 Transformer 和混合深度学习模型的机器生成文本检测

TL;DR该研究介绍了 UniBuc - NLP 团队应对 SemEval 2024 任务 8:多生成器、多领域和多语言黑盒机器生成文本检测的方法。我们探索了基于 transformer 和混合深度学习架构。其中,我们的基于 transformer 的模型在子任务 B 中以 86.95%的准确度在 77 个团队中取得了强势的第二名,展示了该架构在此任务中的适用性。然而,我们的模型在子任务 A 中显示出了过拟合的现象,这可能通过减少微调和增加最大序列长度来修复。对于子任务 C(标记级别分类),我们的混合模型在训练过程中出现了过拟合,影响了其检测人工文本和机器生成文本之间的转换能力。