J-Guard: 以新闻引导的对抗鲁棒性检测人工智能生成的新闻
在本文中,我们提出了一个针对更广泛的对抗性攻击类别的框架,旨在对机器生成的内容进行微小扰动以逃避检测,通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现,现有的检测模型可以在仅 10 秒内受到破坏,将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进,但实际应用仍面临重大挑战,这些发现为 AI 文本检测器的未来发展提供了启示,强调了对更准确和鲁棒的检测方法的需求。
Apr, 2024
本文提出了一种新颖的混合方法,将传统的 TF-IDF 技术与先进的机器学习模型相结合,包括贝叶斯分类器、随机梯度下降(SGD)、分类梯度提升(CatBoost)和 12 个 Deberta-v3-large 模型的实例。通过在全面的数据集上进行广泛的实验,我们证明了我们提出的方法在准确区分人工生成和 AI 生成文本方面的有效性。与现有方法相比,我们的方法取得了更好的性能。这项研究为 AI 生成文本检测技术的进展做出了贡献,并为应对 AI 生成内容带来的挑战开发出稳健的解决方案奠定了基础。
Jun, 2024
该研究呈现了一种名为 Grover 的可控文本生成模型,该模型可生成逼真的假新闻,但通过使用 Grover 模型自身进行验证,可提高检测真假信息的准确性。同时,该研究强调在探索和应对类似 Grover 模型可能带来的风险时,需关注其中的道德问题。
May, 2019
本研究针对学术环境中使用人工智能生成文本的潜在风险进行研究,发现现有的人工智能生成文本检测工具准确性和可靠性都有问题,并且在检测时存在偏向于将 AI 生成文本归类为人类写作。同时,内容混淆技术也会显著降低检测工具的性能。
Jun, 2023
RADAR, a framework for Robust AI-text Detection via Adversarial Training, significantly outperforms existing AI-text detection methods by using adversarial training to improve the capability of detecting AI-generated text, especially in cases where paraphrasing is used.
Jul, 2023
构建了 AIG-ASAP 数据集,利用文本扰动方法生成高质量的学生论文,评估当前 AIGC 检测器在该数据集上的性能,发现现有检测器容易受到自动对抗攻击的规避,强调需要更准确、更稳健的方法来检测教育领域中的 AI 生成学生论文。
Feb, 2024
利用机器学习模型对文章进行自动生成的大语言模型,在知识产权保护、个人隐私和学术诚信方面引发了关注。AI 文本检测系统目前存在鲁棒性不足和难以有效区分扰动文本的问题。本研究通过模拟真实场景,评估当前检测模型在实际应用中的性能,并构建了 12 种黑盒文本扰动方法来评估检测模型的鲁棒性。此外,通过对抗学习实验,研究扰动数据增强对 AI 文本检测器鲁棒性的影响。
Jun, 2024
本文研究了现有的 AI 生成文本检测方法的鲁棒性,并介绍了一种新的检测器 ——Siamese Calibrated Reconstruction Network(SCRN)。SCRN 采用重构网络来添加和去除文本中的噪声,从而提取出对局部扰动具有鲁棒性的语义表示。我们还提出了一种孪生校准技术来训练模型,在不同的噪声下做出相同的置信度预测,从而提高模型对抗性扰动的鲁棒性。在四个公开数据集上的实验证明,SCRN 在对抗攻击下相对于最佳基线方法取得了 6.5%-18.25%的绝对准确率改进。此外,在跨领域、跨种类和混合来源场景下展现了卓越的泛化能力。代码可在 https://github.com/CarlanLark/Robust-AIGC-Detector 获取。
Jun, 2024
大语言模型(LLM)已经发展到一个即使是人类也很难分辨文本是否由其他人类或计算机生成的程度。本文概述了现有的 AI 生成文本(AIGT)检测方法,包括水印、统计和风格分析以及机器学习分类,并提供了有关该任务的现有数据集的信息。总结研究结果,我们旨在揭示在不同情境下决定 AIGT 文本 “可检测性” 的突出因素,并就解决这一重大技术和社会挑战提出实际建议。
Jun, 2024
本文研究了大型语言模型时代中的假新闻检测问题,发现仅训练于人工编写文章的检测器在检测机器生成的假新闻方面表现良好,但反之不成立。此外,由于检测器对机器生成的文本存在偏见,需要在训练集中使用比测试集中较低比例的机器生成新闻。基于我们的发现,我们提供了一个实用的策略来开发健壮的假新闻检测器。
Nov, 2023