机器生成文本本地化

Feb, 2024

Machine-generated Text Localization

Zhongping Zhang, Wenda Qin, Bryan A. Plummer

TL;DR该研究旨在识别机器生成的文本并对文档中的机器生成部分进行定位，以避免由于对部分新闻文章的机器生成篡改而导致整个文档的误导。通过利用上下文信息，该方法能够在多个句子同时预测其是否为机器生成，从而提高了性能。与之前的研究相比，该方法在 GoodNews、VisualNews、WikiText、Essay 和 WP 五个不同数据集上提高了 4-13% 的平均准确率（mAP）。

Abstract

Machine-Generated Text (MGT) detection aims to identify a piece of text as machine or human written. Prior work has primarily formulated MGT as a binary classification task over an entire document, with limited work exploring cases where only part of a document is machine generated. This paper provides the first in-depth study of MGT that localizes the porti

machine-generated text detection localization misinformation contextual information mean average precision

发现论文，激发创造

M4GT-Bench: 黑盒机器生成文本检测评估基准

通过引入多语言、多领域和多发生器的机器生成文本检测基准 M4GT-Bench，本研究解决了识别和区分机器生成文本与人类生成文本的问题，包括单语和多语二元机器生成文本检测、多类别检测以确定生成文本具体使用的模型以及在人机混合文本中确定生成文本与人类编写内容之间的边界的挑战。

Feb, 2024

通过多群体感知优化的最大均值差异检测机器生成的文本

利用最大均值差异（MMD）来检测生成文本中的多个文本人口，提高测量分布差异的稳定性。

Feb, 2024

LLM 作为共同作者的挑战：检测 LLM 与人类混合大小写

大语言模型与机器生成文本（MGT）在新闻和教育等领域的广泛应用中出现了潜在的质量和信息完整性问题。本研究提出了混合文本形式 ——mixcase，并构建了 MixSet 数据集，旨在专门研究这些混合修改场景，并通过实验证明现有的 MGT 检测器在识别 mixcase 时存在困难，尤其是在处理微妙的修改和样式适应性方面。研究结果强调了为 mixcase 定制更细粒度的检测器的紧迫性，并为未来研究提供了有价值的见解。

Jan, 2024

CoCo: 在数据限制下利用对比学习增强一致性的机器生成文本检测

本论文提出了一种名为 CoCo 的基于连贯性图和对比学习的模型，用于检测低资源情况下的机器生成文本；该方法采用预训练模型和图神经网络将文本表示为连贯性图，并使用改进的对比损失函数应对数据限制挑战，实验结果表明 CoCo 方法优于现有的最先进的方法。

Dec, 2022

TextMachina: 无缝生成机器生成文本数据集

TextMachina 是一个模块化和可扩展的 Python 框架，旨在帮助创建高质量、无偏见的数据集，用于构建 MGT 相关任务（如检测、归因或边界检测）的强健模型。

Jan, 2024

多语言机器生成文本检测中的作者混淆

最新大型语言模型的高质量文本生成能力引起了对其滥用（例如，大规模生成 / 传播虚假信息）的关注。机器生成文本（MGT）的检测对应对此类威胁至关重要。然而，它容易受到作者身份混淆（AO）方法的影响，例如改写，这可能使 MGT 逃避检测。到目前为止，这仅在单语环境中进行了评估。因此，最近提出的多语言检测器的易受攻击性仍然未知。我们通过对 10 种知名 AO 方法的性能进行全面基准测试，攻击 37 种语言 MGT 检测方法，使用 11 种语言的 MGT 进行测试（即 10×37×11=4,070 种组合）。我们还评估了数据扩充对针对模糊文本的对抗鲁棒性的影响。结果表明，所有经过测试的 AO 方法都可以在所有经过测试的语言中导致检测逃避，其中同形异义攻击特别成功。

Jan, 2024

解读文本真实性：通过大语言语义的普遍策略来检测人类与机器生成的文本

通过引入一个新的系统 T5LLMCipher，结合预训练的 T5 编码器和 LLM 嵌入子聚类，我们在 9 个不同生成器和领域中评估了我们的方法，并发现与现有方法相比，我们的方法在看不见的生成器和领域中对机器生成的文本的 F1 得分平均提高了 19.6％，正确属性文本的生成器的准确率达到 93.6％。

Jan, 2024

无监督和分布式检测机器生成文本

本文提出一种针对机器生成文档与人工撰写文档进行区分的无监督学习方法，通过利用高阶 n 元模型进行分类，并使用疑似标注文档来训练分类器的集合，成功实现了对疑似机器生成文档的准确评估，并且该方法可适用于各种规模的大型语言模型。

Nov, 2021

机器生成文本的自动检测：一项关键调查

本文旨在基于英文变革的研究成果提炼出重点，探讨如何通过自然语言处理和机器学习建立准确的检测器以区分由 TGM 生成的文本和人类书写的文本。

Nov, 2020

探索检测机器生成文本的局限性

对于检测机器生成文本的分类性能进行了批判性研究，发现分类器对文体变化和文本复杂性的差异非常敏感，在某些情况下完全退化为随机分类器，同时易于阅读的文本易于被误分类，而复杂文本的性能较高。

Jun, 2024