多语言机器生成文本检测中的作者混淆

Jan, 2024

多语言机器生成文本检测中的作者混淆

Authorship Obfuscation in Multilingual Machine-Generated Text Detection

Dominik Macko, Robert Moro, Adaku Uchendu, Ivan Srba, Jason Samuel Lucas...

TL;DR最新大型语言模型的高质量文本生成能力引起了对其滥用（例如，大规模生成 / 传播虚假信息）的关注。机器生成文本（MGT）的检测对应对此类威胁至关重要。然而，它容易受到作者身份混淆（AO）方法的影响，例如改写，这可能使 MGT 逃避检测。到目前为止，这仅在单语环境中进行了评估。因此，最近提出的多语言检测器的易受攻击性仍然未知。我们通过对 10 种知名 AO 方法的性能进行全面基准测试，攻击 37 种语言 MGT 检测方法，使用 11 种语言的 MGT 进行测试（即 10×37×11=4,070 种组合）。我们还评估了数据扩充对针对模糊文本的对抗鲁棒性的影响。结果表明，所有经过测试的 AO 方法都可以在所有经过测试的语言中导致检测逃避，其中同形异义攻击特别成功。

Abstract

High-quality text generation capability of latest large language models (LLMs) causes concerns about their misuse (e.g., in massive generation/spread of disinformation). Machine-generated text (MGT) detection is

text generation large language models machine-generated text detection authorship obfuscation multilingual detectors

发现论文，激发创造

人性化机器生成内容：通过对抗性攻击规避 AI 文本检测

在本文中，我们提出了一个针对更广泛的对抗性攻击类别的框架，旨在对机器生成的内容进行微小扰动以逃避检测，通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现，现有的检测模型可以在仅 10 秒内受到破坏，将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进，但实际应用仍面临重大挑战，这些发现为 AI 文本检测器的未来发展提供了启示，强调了对更准确和鲁棒的检测方法的需求。

Apr, 2024

机器生成文本本地化

该研究旨在识别机器生成的文本并对文档中的机器生成部分进行定位，以避免由于对部分新闻文章的机器生成篡改而导致整个文档的误导。通过利用上下文信息，该方法能够在多个句子同时预测其是否为机器生成，从而提高了性能。与之前的研究相比，该方法在 GoodNews、VisualNews、WikiText、Essay 和 WP 五个不同数据集上提高了 4-13% 的平均准确率（mAP）。

Feb, 2024

M4GT-Bench: 黑盒机器生成文本检测评估基准

通过引入多语言、多领域和多发生器的机器生成文本检测基准 M4GT-Bench，本研究解决了识别和区分机器生成文本与人类生成文本的问题，包括单语和多语二元机器生成文本检测、多类别检测以确定生成文本具体使用的模型以及在人机混合文本中确定生成文本与人类编写内容之间的边界的挑战。

Feb, 2024

神经文本作者身份鉴定与混淆：数据挖掘视角

本文综述了从数据挖掘的角度出发，针对神经文本生成中的作者归属与模糊化问题开展的最近研究，旨在理解传统作者归属与模糊化方法的局限性并探讨新的研究方向，以解决神经文本撰写人的匿名性与隐私问题。

Oct, 2022

AI 生成文本能否被可靠地检测出来？

本篇研究展示了当前语言模型（LLMs）产生的文本检测器的可靠性不足，并提出了模仿攻击和伪造攻击等问题，强调了在使用 AI 生成文本时的伦理和可靠性问题。

Mar, 2023

通过多群体感知优化的最大均值差异检测机器生成的文本

利用最大均值差异（MMD）来检测生成文本中的多个文本人口，提高测量分布差异的稳定性。

Feb, 2024

SemEval-2024 任务 8：多领域机器生成文本检测技术的综合分析

本论文介绍了我们在 SemEval2024 Task8 中用于检测跨各个领域的机器生成文本的方法，包括统计、神经网络和预训练模型方法，并通过深入的错误分析评估了这些方法的有效性。在单语和多语境下，我们的方法在子任务 A 单语上获得 86.9％的准确率，在子任务 B 上获得 83.7％的准确率。此外，我们还强调了未来研究中的挑战和重要因素。

Mar, 2024

探测人工智能生成的文本：当前方法中影响可检测性的因素

大语言模型（LLM）已经发展到一个即使是人类也很难分辨文本是否由其他人类或计算机生成的程度。本文概述了现有的 AI 生成文本（AIGT）检测方法，包括水印、统计和风格分析以及机器学习分类，并提供了有关该任务的现有数据集的信息。总结研究结果，我们旨在揭示在不同情境下决定 AIGT 文本 “可检测性” 的突出因素，并就解决这一重大技术和社会挑战提出实际建议。

Jun, 2024

解读文本真实性：通过大语言语义的普遍策略来检测人类与机器生成的文本

通过引入一个新的系统 T5LLMCipher，结合预训练的 T5 编码器和 LLM 嵌入子聚类，我们在 9 个不同生成器和领域中评估了我们的方法，并发现与现有方法相比，我们的方法在看不见的生成器和领域中对机器生成的文本的 F1 得分平均提高了 19.6％，正确属性文本的生成器的准确率达到 93.6％。

Jan, 2024

使用神经文本生成器欺骗在线作者归属模型：你是罗伯特还是罗伯塔？

本文探讨自然语言模型在生成具有被误认为是他人所写的能力的在线文本方面的潜力，发现当前的这类技术中 GPT-2 可成功地模拟与欺骗常见的作者识别的方法，说明了这类技术的巨大潜力和其实际应用如非法信息识别和犯罪取证的重要性。

Mar, 2022