MALCOM: 生成恶意评论以攻击神经网络假新闻检测模型

Sep, 2020

MALCOM: 生成恶意评论以攻击神经网络假新闻检测模型

MALCOM: Generating Malicious Comments to Attack Neural Fake News Detection Models

Thai Le, Suhang Wang, Dongwon Lee

TL;DR研究者们提出了使用数据科学和机器学习技术自动检测社交媒体上的假新闻的最先进模型，但我们的工作提出了一个新的威胁模型，并通过MALCOM攻击框架展示了其对五种最新的神经检测模型的攻击效果，能够在平均94％和93.5％的时间内成功欺骗目标标签。

Abstract

In recent years, the proliferation of so-called "fake news" has caused much disruptions in society and weakened the news ecosystem. Therefore, to mitigate such problems, researchers have developed state-of-the-art models to auto-detect →

发现论文，激发创造

CSI: 一种用于假新闻检测的混合深度模型

本文关注了假新闻的问题，并提出了一个基于CSI模型的自动检测框架，该框架综合分析用户和文章的行为和文本特征，相较于现有方法，具有更高的准确性和更好的泛化能力。

Mar, 2017

利用连续学习的图神经网络检测社交媒体中的虚假新闻

本论文主要针对基于传播的假新闻检测，利用图神经网络实现无需文本信息的分类方法，研究了在新数据集上的性能问题，并提出了利用持续学习方法解决的方案。

Jul, 2020

伪新闻检测模型的对抗性基准测试

本文提出了一个对抗性基准测试，旨在测试虚假新闻检测器推理现实世界事实的能力，使用 BERT 分类器 fine-tuned 在 LIAR arXiv:arch-ive/1705648 和 Kaggle Fake-News 数据集上，结果显示这两种模型在处理组合语义、词汇关系和修饰符等方面的意思变化上存在失败的情况。这表明虚假新闻检测器需要与其他事实检查方法一起使用。

Jan, 2022

基于强化学习的领域自适应假新闻检测

该论文探讨了社交媒体中假新闻传播的挑战，并引入基于增强学习的模型（REAL-FND），将用户评论和用户-新闻交互等辅助信息结合起来，利用跨领域以及领域内的知识，特别是在目标领域的数据有限的情况下，有效地检测假新闻。

Feb, 2022

自动检测虚假新闻：当前模型是“事实核查”还是“直觉判断”？

这篇研究通过多种神经和非神经预处理以及风格转移技术，消除了假新闻检测模型中情感、情绪、词性等易受攻击的指标，从而推断出这些模型中可能隐藏着可操纵的信号，并通过情感向量模型构建进一步证明了这一假设。

Apr, 2022

嵌入式探测！使用文档嵌入式检测假新闻

本文提出了一种使用文档嵌入的新方法，建立多个模型，将新闻文章准确地标记为可靠或虚假，评估了这些模型并证明了文档编码是获得高准确性的最重要因素

Apr, 2023

大型语言模型生成的文本受到假新闻检测器的偏见

在大语言模型(LLMs)时代，我们发现许多现有的假新闻检测器存在显著偏见，更容易将LLMs生成的内容标记为假新闻，而常常误将人类撰写的假新闻分类为真实。为了解决这个问题，我们引入了一种对抗训练与LLMs重写的真实新闻相结合的缓解策略，从而在人类和LLMs生成的新闻的检测准确性方面取得了显著的改进。为了进一步推动该领域的研究，我们发布了两个全面的数据集“GossipCop++”和“PolitiFact++”，将经人工验证的文章与LLMs生成的假新闻和真实新闻相结合。

Sep, 2023

针对假新闻检测的对抗性数据污染: 如何使模型对目标新闻进行错误分类而不修改该新闻

在这篇立场论文中，我们分析了在不允许操纵原始目标新闻的情况下如何攻击在线学习检测器的性能，以及攻击者如何潜在地引入污染数据来操纵在线学习方法的行为。我们的初步研究发现，基于复杂性和攻击类型，逻辑回归模型对此具有不同的敏感性。

Dec, 2023

探索LLM生成的虚假新闻的欺骗力：对现实世界检测挑战的研究

最近大规模语言模型（LLMs）的进展使得虚假新闻的制造成为可能，本研究旨在确定提示技术是否能够有效缩小LLM生成的虚假新闻的欺骗性差距，通过提出一种名为条件变分自编码类提示（VLPrompt）的强大虚假新闻攻击方法，该方法无需额外的数据采集，并且保持了上下文的一致性和原始文本的细节。为了推动VLPrompt攻击的检测研究，我们创建了一个新的数据集名为VLPrompt虚假新闻（VLPFN），其中包含真实文本和假文本。我们进行了各种检测方法和新颖的人类研究指标的实验，来评估它们在我们的数据集上的性能，得出了众多发现。

Mar, 2024

对抗风格扩充的大型语言模型用于鲁棒假新闻检测

通过使用LLMs自动生成各种具有多样性但连贯的风格转换攻击提示，我们的对抗性样式增强模型（AdStyle）改善了对假新闻的检测性能，并提高了鲁棒性。

Jun, 2024