MALCOM: 生成恶意评论以攻击神经网络假新闻检测模型
本文关注了假新闻的问题,并提出了一个基于CSI模型的自动检测框架,该框架综合分析用户和文章的行为和文本特征,相较于现有方法,具有更高的准确性和更好的泛化能力。
Mar, 2017
本论文主要针对基于传播的假新闻检测,利用图神经网络实现无需文本信息的分类方法,研究了在新数据集上的性能问题,并提出了利用持续学习方法解决的方案。
Jul, 2020
本文提出了一个对抗性基准测试,旨在测试虚假新闻检测器推理现实世界事实的能力,使用 BERT 分类器 fine-tuned 在 LIAR arXiv:arch-ive/1705648 和 Kaggle Fake-News 数据集上,结果显示这两种模型在处理组合语义、词汇关系和修饰符等方面的意思变化上存在失败的情况。这表明虚假新闻检测器需要与其他事实检查方法一起使用。
Jan, 2022
该论文探讨了社交媒体中假新闻传播的挑战,并引入基于增强学习的模型(REAL-FND),将用户评论和用户-新闻交互等辅助信息结合起来,利用跨领域以及领域内的知识,特别是在目标领域的数据有限的情况下,有效地检测假新闻。
Feb, 2022
这篇研究通过多种神经和非神经预处理以及风格转移技术,消除了假新闻检测模型中情感、情绪、词性等易受攻击的指标,从而推断出这些模型中可能隐藏着可操纵的信号,并通过情感向量模型构建进一步证明了这一假设。
Apr, 2022
在大语言模型(LLMs)时代,我们发现许多现有的假新闻检测器存在显著偏见,更容易将LLMs生成的内容标记为假新闻,而常常误将人类撰写的假新闻分类为真实。为了解决这个问题,我们引入了一种对抗训练与LLMs重写的真实新闻相结合的缓解策略,从而在人类和LLMs生成的新闻的检测准确性方面取得了显著的改进。为了进一步推动该领域的研究,我们发布了两个全面的数据集“GossipCop++”和“PolitiFact++”,将经人工验证的文章与LLMs生成的假新闻和真实新闻相结合。
Sep, 2023
在这篇立场论文中,我们分析了在不允许操纵原始目标新闻的情况下如何攻击在线学习检测器的性能,以及攻击者如何潜在地引入污染数据来操纵在线学习方法的行为。我们的初步研究发现,基于复杂性和攻击类型,逻辑回归模型对此具有不同的敏感性。
Dec, 2023
最近大规模语言模型(LLMs)的进展使得虚假新闻的制造成为可能,本研究旨在确定提示技术是否能够有效缩小LLM生成的虚假新闻的欺骗性差距,通过提出一种名为条件变分自编码类提示(VLPrompt)的强大虚假新闻攻击方法,该方法无需额外的数据采集,并且保持了上下文的一致性和原始文本的细节。为了推动VLPrompt攻击的检测研究,我们创建了一个新的数据集名为VLPrompt虚假新闻(VLPFN),其中包含真实文本和假文本。我们进行了各种检测方法和新颖的人类研究指标的实验,来评估它们在我们的数据集上的性能,得出了众多发现。
Mar, 2024
通过使用LLMs自动生成各种具有多样性但连贯的风格转换攻击提示,我们的对抗性样式增强模型(AdStyle)改善了对假新闻的检测性能,并提高了鲁棒性。
Jun, 2024