AI 生成文本检测器的可靠性评估框架:基于迂回软提示
评估了三种不同的 AI 文本检测器,发现水印技术存在较高的误报率,ZeroGPT 技术误报和漏报率都较高,并通过使用 ChatGPT 3.5 来将原始的 AI 生成文本改写,有效地绕过了这些检测器的误报率和漏报率。
Apr, 2024
在本文中,我们提出了一个针对更广泛的对抗性攻击类别的框架,旨在对机器生成的内容进行微小扰动以逃避检测,通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现,现有的检测模型可以在仅 10 秒内受到破坏,将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进,但实际应用仍面临重大挑战,这些发现为 AI 文本检测器的未来发展提供了启示,强调了对更准确和鲁棒的检测方法的需求。
Apr, 2024
我们提供了对大语言模型的生成文本影响的全面分析,并强调了当前最先进的 GPT 检测器中可能存在的鲁棒性缺失。为了解决学术写作中滥用大语言模型的问题,我们提出了一种基于参考文本的孪生检测器 Synthetic-Siamese,将一对文本作为查询和参考,该方法有效解决了以前检测器(OpenAI detector 和 DetectGPT)的鲁棒性缺失,并将基线性能在实际学术写作场景中提高了约 67% 至 95%。
Jan, 2024
本研究探讨了几种广泛使用的 GPT 检测器的性能,并以母语和非母语英语写作样本为例,发现这些检测器将非母语英语写作样本错误地识别为 AI 生成的内容,而将母语写作样本正确地识别,并且还证明了简单的提示策略可以减轻这种偏见并有效地规避非母语英语写作者的惩罚。我们的研究结果呼吁加强对部署 ChatGPT 内容检测器的伦理影响的广泛讨论,并警告在评估或教育背景下使用时,这些检测器可能会无意中惩罚或排除非母语英语的演讲者和作者。
Apr, 2023
本篇研究展示了当前语言模型(LLMs)产生的文本检测器的可靠性不足,并提出了模仿攻击和伪造攻击等问题,强调了在使用 AI 生成文本时的伦理和可靠性问题。
Mar, 2023
本篇研究针对近年来大模型语言技术的快速普及及不断提高的适应性,提出了具有高效性和稳定性的人造文本检测方法。该方法能够辨别多种模型和解码策略生成的人造文本,并具有抗检测的能力。此外,研究还对机器生成文本检测机制的鲁棒性做出了贡献,揭示了在使用大规模语言模型技术时存在的社会和伦理问题,并提出了相应的解决方案。
May, 2023
在该研究中,我们提出了一种新颖的基于替换的上下文示例优化方法(SICO),通过精心设计的提示语,有效地使 ChatGPT 躲避现有的六个检测器,揭示了现有检测器的易感性,并展示了 SICO 的强大性能和可靠性,证实其作为该领域任何新检测器的有效评估协议。
May, 2023
本研究的主要目的是提供 ChatGPT 检测的最新技术的全面评估,同时我们评估了其他 AI 生成的文本检测工具,以检测 ChatGPT 生成的内容。此外,我们还创建了一个基准数据集用于评估各种技术在检测 ChatGPT 生成内容方面的性能。研究结果表明,现有方法都不能有效地检测 ChatGPT 生成的内容。
Apr, 2023
利用机器学习模型对文章进行自动生成的大语言模型,在知识产权保护、个人隐私和学术诚信方面引发了关注。AI 文本检测系统目前存在鲁棒性不足和难以有效区分扰动文本的问题。本研究通过模拟真实场景,评估当前检测模型在实际应用中的性能,并构建了 12 种黑盒文本扰动方法来评估检测模型的鲁棒性。此外,通过对抗学习实验,研究扰动数据增强对 AI 文本检测器鲁棒性的影响。
Jun, 2024