J-Guard: 以新闻引导的对抗鲁棒性检测人工智能生成的新闻

ACLSep, 2023

J-Guard: 以新闻引导的对抗鲁棒性检测人工智能生成的新闻

J-Guard: Journalism Guided Adversarially Robust Detection of AI-generated News

Tharindu Kumarage, Amrita Bhattacharjee, Djordje Padejski, Kristy Roschke, Dan Gillmor...

TL;DRAI 生成的新闻是网络上的重要的误信息来源，此研究开发了一个名为 J-Guard 的框架，通过应用独特的新闻特征来有效区分真实的新闻和 AI 生成的新闻，并在面对对抗性攻击时只有 7％的性能下降。

Abstract

The rapid proliferation of ai-generated text online is profoundly reshaping the information landscape. Among various types of ai-generated text,

ai-generated text ai-generated news misinformation detection methods j-guard

发现论文，激发创造

人性化机器生成内容：通过对抗性攻击规避 AI 文本检测

在本文中，我们提出了一个针对更广泛的对抗性攻击类别的框架，旨在对机器生成的内容进行微小扰动以逃避检测，通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现，现有的检测模型可以在仅 10 秒内受到破坏，将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进，但实际应用仍面临重大挑战，这些发现为 AI 文本检测器的未来发展提供了启示，强调了对更准确和鲁棒的检测方法的需求。

Apr, 2024

增强文本真实性：一种新颖的混合方法用于 AI 生成文本检测

本文提出了一种新颖的混合方法，将传统的 TF-IDF 技术与先进的机器学习模型相结合，包括贝叶斯分类器、随机梯度下降（SGD）、分类梯度提升（CatBoost）和 12 个 Deberta-v3-large 模型的实例。通过在全面的数据集上进行广泛的实验，我们证明了我们提出的方法在准确区分人工生成和 AI 生成文本方面的有效性。与现有方法相比，我们的方法取得了更好的性能。这项研究为 AI 生成文本检测技术的进展做出了贡献，并为应对 AI 生成内容带来的挑战开发出稳健的解决方案奠定了基础。

Jun, 2024

防御神经伪新闻

该研究呈现了一种名为 Grover 的可控文本生成模型，该模型可生成逼真的假新闻，但通过使用 Grover 模型自身进行验证，可提高检测真假信息的准确性。同时，该研究强调在探索和应对类似 Grover 模型可能带来的风险时，需关注其中的道德问题。

May, 2019

AI 生成文本检测工具测试

本研究针对学术环境中使用人工智能生成文本的潜在风险进行研究，发现现有的人工智能生成文本检测工具准确性和可靠性都有问题，并且在检测时存在偏向于将 AI 生成文本归类为人类写作。同时，内容混淆技术也会显著降低检测工具的性能。

Jun, 2023

RADAR: 鲁棒的 AI 文本检测方法

RADAR, a framework for Robust AI-text Detection via Adversarial Training, significantly outperforms existing AI-text detection methods by using adversarial training to improve the capability of detecting AI-generated text, especially in cases where paraphrasing is used.

Jul, 2023

隐匿论文代写：AI 生成学生论文检测的对抗性评估

构建了 AIG-ASAP 数据集，利用文本扰动方法生成高质量的学生论文，评估当前 AIGC 检测器在该数据集上的性能，发现现有检测器容易受到自动对抗攻击的规避，强调需要更准确、更稳健的方法来检测教育领域中的 AI 生成学生论文。

Feb, 2024

穿越黑暗：揭示现代 AI 内容检测器的有效干扰

利用机器学习模型对文章进行自动生成的大语言模型，在知识产权保护、个人隐私和学术诚信方面引发了关注。AI 文本检测系统目前存在鲁棒性不足和难以有效区分扰动文本的问题。本研究通过模拟真实场景，评估当前检测模型在实际应用中的性能，并构建了 12 种黑盒文本扰动方法来评估检测模型的鲁棒性。此外，通过对抗学习实验，研究扰动数据增强对 AI 文本检测器鲁棒性的影响。

Jun, 2024

AI 生成文本检测器对抗扰动的鲁棒性研究

本文研究了现有的 AI 生成文本检测方法的鲁棒性，并介绍了一种新的检测器 ——Siamese Calibrated Reconstruction Network（SCRN）。SCRN 采用重构网络来添加和去除文本中的噪声，从而提取出对局部扰动具有鲁棒性的语义表示。我们还提出了一种孪生校准技术来训练模型，在不同的噪声下做出相同的置信度预测，从而提高模型对抗性扰动的鲁棒性。在四个公开数据集上的实验证明，SCRN 在对抗攻击下相对于最佳基线方法取得了 6.5％-18.25％的绝对准确率改进。此外，在跨领域、跨种类和混合来源场景下展现了卓越的泛化能力。代码可在 https://github.com/CarlanLark/Robust-AIGC-Detector 获取。

Jun, 2024

探测人工智能生成的文本：当前方法中影响可检测性的因素

大语言模型（LLM）已经发展到一个即使是人类也很难分辨文本是否由其他人类或计算机生成的程度。本文概述了现有的 AI 生成文本（AIGT）检测方法，包括水印、统计和风格分析以及机器学习分类，并提供了有关该任务的现有数据集的信息。总结研究结果，我们旨在揭示在不同情境下决定 AIGT 文本 “可检测性” 的突出因素，并就解决这一重大技术和社会挑战提出实际建议。

Jun, 2024

适应大语言模型时代的假新闻检测

本文研究了大型语言模型时代中的假新闻检测问题，发现仅训练于人工编写文章的检测器在检测机器生成的假新闻方面表现良好，但反之不成立。此外，由于检测器对机器生成的文本存在偏见，需要在训练集中使用比测试集中较低比例的机器生成新闻。基于我们的发现，我们提供了一个实用的策略来开发健壮的假新闻检测器。

Nov, 2023