利用同形异义字规避 AI 生成的内容检测器

Jun, 2024

利用同形异义字规避 AI 生成的内容检测器

Evading AI-Generated Content Detectors using Homoglyphs

Aldan Creo, Shushanta Pudasaini

TL;DR本研究通过分析同形异义字如何转移文本的记号化和标记的对数似然值，对比了现有大语言模型检测器在五个不同数据集上与同形异义字攻击的有效性，发现同形异义字攻击可以有效躲避现有的大语言模型检测器，讨论了这些发现的影响以及可能的防御方法。

Abstract

The generation of text that is increasingly human-like has been enabled by the advent of large language models (LLMs). As the detection of AI-generated content holds significant importance in the fight against issues such as misinformation and academic cheating, numerous studies have b

text generation large language models llm detectors homoglyph-based attacks ai-generated content

发现论文，激发创造

攻击神经文本检测器

本文介绍了两种黑匣子攻击方法，一种是将字符随机替换为了形似字，另一种是故意拼错单词，受攻击的神经文本检测器从 97.44％降至 0.26％和 22.68％，攻击也可转移至其他文本检测器。

Feb, 2020

利用文化偏见在文本到图像合成中的同形字攻击

通过在文本描述中插入单个非拉丁字符，我们展示了普通模型如何反映文化刻板印象和偏见。我们定性和定量分析了这种行为，并将其归因于模型的文本编码器。此外，我们提出了一种新颖的同形学习方法，通过微调文本编码器，使其能够抵抗同形符号的操纵.

Sep, 2022

使用语言模型对抗语言模型检测器

本文研究了如何攻击已有的机器文字生成检测算法，并验证了所有被测试的检测器的鲁棒性。结果表明，开发更加鲁棒的机器文字检测系统有着迫切的需求。

May, 2023

多语言机器生成文本检测中的作者混淆

最新大型语言模型的高质量文本生成能力引起了对其滥用（例如，大规模生成 / 传播虚假信息）的关注。机器生成文本（MGT）的检测对应对此类威胁至关重要。然而，它容易受到作者身份混淆（AO）方法的影响，例如改写，这可能使 MGT 逃避检测。到目前为止，这仅在单语环境中进行了评估。因此，最近提出的多语言检测器的易受攻击性仍然未知。我们通过对 10 种知名 AO 方法的性能进行全面基准测试，攻击 37 种语言 MGT 检测方法，使用 11 种语言的 MGT 进行测试（即 10×37×11=4,070 种组合）。我们还评估了数据扩充对针对模糊文本的对抗鲁棒性的影响。结果表明，所有经过测试的 AO 方法都可以在所有经过测试的语言中导致检测逃避，其中同形异义攻击特别成功。

Jan, 2024

GlyphNet：Homoglyph 域名数据集及使用基于注意力的卷积神经网络进行检测

本文介绍了一种基于图像数据和卷积神经网络的注意力基线方法，能够在实际场景中检测和识别 Homoglyph 攻击，并优于现有方法。

Jun, 2023

人性化机器生成内容：通过对抗性攻击规避 AI 文本检测

在本文中，我们提出了一个针对更广泛的对抗性攻击类别的框架，旨在对机器生成的内容进行微小扰动以逃避检测，通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现，现有的检测模型可以在仅 10 秒内受到破坏，将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进，但实际应用仍面临重大挑战，这些发现为 AI 文本检测器的未来发展提供了启示，强调了对更准确和鲁棒的检测方法的需求。

Apr, 2024

AI 生成文本能否被可靠地检测出来？

本篇研究展示了当前语言模型（LLMs）产生的文本检测器的可靠性不足，并提出了模仿攻击和伪造攻击等问题，强调了在使用 AI 生成文本时的伦理和可靠性问题。

Mar, 2023

检测 LLM 生成的文本的科学

该研究对大型语言模型生成文本的检测技术现状及未来方向进行了综述，并提出了发展全面的评估指标和威胁控制方案等必要措施。关注点包括大型语言模型的开源威胁和其所产生的可能的误传信息问题。

Feb, 2023

大型语言模型可以引导逃避 AI 生成的文本检测

在该研究中，我们提出了一种新颖的基于替换的上下文示例优化方法（SICO），通过精心设计的提示语，有效地使 ChatGPT 躲避现有的六个检测器，揭示了现有检测器的易感性，并展示了 SICO 的强大性能和可靠性，证实其作为该领域任何新检测器的有效评估协议。

May, 2023

LLMs 生成内容检测调查

综述了大规模语言模型（LLMs）生成内容检测的现有策略和基准，并指出该领域的关键挑战和前景，提倡采用更加适应性和稳健的模型来提高检测准确性，以及应对 LLMs 能力快速发展的多方面防御方法的必要性。该工作是在 LLMs 时代首部全面综述内容检测的研究，旨在为研究人员和从业者提供广泛了解 LLMs 生成内容检测的当前情况的指导参考，以保护数字信息的完整性。

Oct, 2023