探索 LLM 生成的虚假新闻的欺骗力：对现实世界检测挑战的研究

Mar, 2024

探索 LLM 生成的虚假新闻的欺骗力：对现实世界检测挑战的研究

Exploring the Deceptive Power of LLM-Generated Fake News: A Study of Real-World Detection Challenges

Yanshen Sun, Jianfeng He, Limeng Cui, Shuo Lei, Chang-Tien Lu

TL;DR最近大规模语言模型（LLMs）的进展使得虚假新闻的制造成为可能，本研究旨在确定提示技术是否能够有效缩小 LLM 生成的虚假新闻的欺骗性差距，通过提出一种名为条件变分自编码类提示（VLPrompt）的强大虚假新闻攻击方法，该方法无需额外的数据采集，并且保持了上下文的一致性和原始文本的细节。为了推动 VLPrompt 攻击的检测研究，我们创建了一个新的数据集名为 VLPrompt 虚假新闻（VLPFN），其中包含真实文本和假文本。我们进行了各种检测方法和新颖的人类研究指标的实验，来评估它们在我们的数据集上的性能，得出了众多发现。

Abstract

Recent advancements in large language models (LLMs) have enabled the creation of fake news, particularly in complex fields like healthcare. Studies highlight the gap in the deceptive power of LLM-generated

large language models fake news prompting techniques vlprompt detection methods

发现论文，激发创造

大型语言模型生成的文本受到假新闻检测器的偏见

在大语言模型 (LLMs) 时代，我们发现许多现有的假新闻检测器存在显著偏见，更容易将 LLMs 生成的内容标记为假新闻，而常常误将人类撰写的假新闻分类为真实。为了解决这个问题，我们引入了一种对抗训练与 LLMs 重写的真实新闻相结合的缓解策略，从而在人类和 LLMs 生成的新闻的检测准确性方面取得了显著的改进。为了进一步推动该领域的研究，我们发布了两个全面的数据集 “GossipCop++” 和 “PolitiFact++”，将经人工验证的文章与 LLMs 生成的假新闻和真实新闻相结合。

Sep, 2023

适应大语言模型时代的假新闻检测

本文研究了大型语言模型时代中的假新闻检测问题，发现仅训练于人工编写文章的检测器在检测机器生成的假新闻方面表现良好，但反之不成立。此外，由于检测器对机器生成的文本存在偏见，需要在训练集中使用比测试集中较低比例的机器生成新闻。基于我们的发现，我们提供了一个实用的策略来开发健壮的假新闻检测器。

Nov, 2023

以敌对的令牌对抗，生成一个虚假信息检测数据集

通过使用大型语言模型（LLMs）生成语言的最新成果，本文提出了一种创建辨别虚假信息的银标准真实数据集的方法，通过在受信任的新闻文章上构建 LLMs 的提示，自动生成该文章的摘要版本，并针对性地生成具体类型的事实错误，如错误数量、错误归属等，以研究此数据集的实用性，并进行了一系列的实验，训练了一系列用于辨别虚假信息的监督模型。

Jan, 2024

DeceptPrompt: 利用对抗性自然语言指令挖掘 LLM 驱动的代码生成

通过引入 DeceptPrompt 算法，该论文针对大型语言模型在代码生成任务中的致命弱点进行了广泛实验和分析，证实了其在诱导模型生成易受攻击代码方面的有效性，攻击成功率相比无前缀 / 后缀应用平均提高了 50%。

Dec, 2023

对抗风格扩充的大型语言模型用于鲁棒假新闻检测

通过使用 LLMs 自动生成各种具有多样性但连贯的风格转换攻击提示，我们的对抗性样式增强模型（AdStyle）改善了对假新闻的检测性能，并提高了鲁棒性。

Jun, 2024

欺骗性提示对多模态语言模型的迷惑程度实证分析

通过 Quantum-Bench，我们比较了多种先进模型在对抗伪信息的能力上的表现，并提出了通过增加伪信息以增强模型韧性的建议。

Feb, 2024

探索大型语言模型在识别误导性新闻标题中的潜力

利用大型语言模型（LLMs），本文研究了识别误导性与非误导性新闻标题的效果。研究发现模型性能存在显著差异，ChatGPT-4 在一致标注者就误导性标题达成一致意见的情况下表现出更准确的结果。文章强调了人本评估在开发 LLMs 中的重要性，旨在将技术能力与细腻的人类判断力相结合。研究结果对 AI 伦理问题具有借鉴意义，强调了在技术先进的同时，还需要考虑伦理道德和人类解读的微妙性。

May, 2024

重新寻求真相：多轮检索增强的大型语言模型是强大的假新闻检测器

通过多轮检索策略从网络源自动抽取关键证据进行主张验证的检索增强 LLMs 框架是第一种能自动地并有目的性地从网页信息中提取关键证据的框架，通过在三个现实世界数据集上进行全面的实验证明了该框架对现有方法的优越性。重要的是，我们的模型不仅提供准确的结论，还提供可读的解释，以提高结果的可解释性。

Mar, 2024

透过人工智能的视角：增强人类对 LLM 生成的假新闻的怀疑

该论文旨在通过提供简单的标记，帮助个人区分人类撰写的文章和由 LLMs 生成的文章，从而增强对 LLMs 生成的假新闻的怀疑。研究中引入并详细审查 ESAS 排名最高的词汇，以辅助个人加强对 LLMs 生成假新闻的怀疑。

Jun, 2024

大型语言模型的红队和防御攻击指令生成

通过综合手动和自动方法生成攻击提示的综合方法，提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示，并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性；在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性，并发布了一系列攻击提示数据集（SAP）以便更多大型语言模型的安全评估和增强。

Oct, 2023