Jan, 2024

多语言机器生成文本检测中的作者混淆

TL;DR最新大型语言模型的高质量文本生成能力引起了对其滥用(例如,大规模生成 / 传播虚假信息)的关注。机器生成文本(MGT)的检测对应对此类威胁至关重要。然而,它容易受到作者身份混淆(AO)方法的影响,例如改写,这可能使 MGT 逃避检测。到目前为止,这仅在单语环境中进行了评估。因此,最近提出的多语言检测器的易受攻击性仍然未知。我们通过对 10 种知名 AO 方法的性能进行全面基准测试,攻击 37 种语言 MGT 检测方法,使用 11 种语言的 MGT 进行测试(即 10×37×11=4,070 种组合)。我们还评估了数据扩充对针对模糊文本的对抗鲁棒性的影响。结果表明,所有经过测试的 AO 方法都可以在所有经过测试的语言中导致检测逃避,其中同形异义攻击特别成功。