以敌对的令牌对抗,生成一个虚假信息检测数据集
我们提出了一种新型的 “以毒攻毒” 策略,利用现代大型语言模型的生成和推理能力来对抗人类撰写和大型语言模型生成的虚假信息。通过使用 GPT-3.5-turbo 合成真实和具有欺骗性的大型语言模型生成内容,并结合上下文语义推理技术判断真实和虚假的帖子和新闻文章,我们观察到 GPT-3.5-turbo 在不同数据集上的优越性,准确率达到 68-72%。
Oct, 2023
使用大型语言模型检测科学报道中的虚假信息,针对缺乏明确标签的情况,提出了多种基于大型语言模型的基准架构和提示方法,包括零样本、少样本和连贯思维提示等。
Feb, 2024
利用会话式引导工程的大型语言模型来对抗数字虚假信息,通过扩展 RumourEval 任务的研究努力,从事推特数据集的真实性预测和立场分类,以 AI 社会公益为主要目标。
Apr, 2024
大语言模型(LLM)的出现具有革命性的影响。然而,像 ChatGPT 这样的 LLM 是否可能被滥用来生成误导信息,对在线安全和公众信任构成了严重关注。我们从检测难度的角度提出了一个基本的研究问题:LLM 生成的误导信息是否比人类编写的误导信息具有更大的危害性?通过我们的实证研究,我们发现相比于具有相同语义的人类编写的误导信息,LLM 生成的误导信息对于人类和检测器来说更难以检测,这表明它可能具有更具欺骗性的风格,并有可能造成更大的伤害。我们还讨论了我们发现对抗 LLM 时的误导信息在信息时代和相应对策的影响。
Sep, 2023
在大语言模型 (LLMs) 时代,我们发现许多现有的假新闻检测器存在显著偏见,更容易将 LLMs 生成的内容标记为假新闻,而常常误将人类撰写的假新闻分类为真实。为了解决这个问题,我们引入了一种对抗训练与 LLMs 重写的真实新闻相结合的缓解策略,从而在人类和 LLMs 生成的新闻的检测准确性方面取得了显著的改进。为了进一步推动该领域的研究,我们发布了两个全面的数据集 “GossipCop++” 和 “PolitiFact++”,将经人工验证的文章与 LLMs 生成的假新闻和真实新闻相结合。
Sep, 2023
最近大规模语言模型(LLMs)的进展使得虚假新闻的制造成为可能,本研究旨在确定提示技术是否能够有效缩小 LLM 生成的虚假新闻的欺骗性差距,通过提出一种名为条件变分自编码类提示(VLPrompt)的强大虚假新闻攻击方法,该方法无需额外的数据采集,并且保持了上下文的一致性和原始文本的细节。为了推动 VLPrompt 攻击的检测研究,我们创建了一个新的数据集名为 VLPrompt 虚假新闻(VLPFN),其中包含真实文本和假文本。我们进行了各种检测方法和新颖的人类研究指标的实验,来评估它们在我们的数据集上的性能,得出了众多发现。
Mar, 2024
通过回答三个研究问题,本研究探讨了利用大型语言模型(LLMs)生成的谣言和虚假信息对目前存在的谣言检测技术的影响,以及通过使用 LLMs 作为强大的谣言防御手段以及针对这一威胁的新方法的可能性。
Sep, 2023
本文研究了现代大型语言模型的潜在滥用问题,并探讨其对信息密集型应用的影响,特别是对开放式问题回答系统。我们建立了一个威胁模型,模拟了可能的滥用场景,证明了大型语言模型可以作为有效的错误信息产生器,导致开放式问题回答系统的性能显著降低。为了减轻大型语言模型生成的错误信息带来的危害,我们探索了三种防御策略:提示、错误信息检测和多数投票。尽管最初的结果显示这些防御策略具有有利趋势,但仍需要更多的工作来解决错误信息污染的挑战。我们的工作强调了进一步研究和跨学科合作的必要性,以应对大型语言模型生成的错误信息,促进大型语言模型的负责任使用。
May, 2023
使用新的方法解决 GPT-4 等大型语言模型在处理模糊或缺乏背景信息的陈述时的不确定性,并通过基于 LIAR-New 数据集的分类标签提出一个可适用于跨领域内容的框架来解析丢失的信息。我们利用这个框架生成有效的用户查询,相比基准方法,我们的方法提高了用户可回答的问题的比例 38 个百分点,宏观 F1 分类性能提高了 10 个百分点以上。因此,该方法可能成为未来对抗虚假信息的有价值组成部分。
Jan, 2024
通过扩充大语言模型 (ChatGPT) 的事实核查,重新审视了由人类记者验证的现有虚假新闻数据集,并将扩充的虚假新闻数据集命名为 ChatGPT-FC。我们在评估新闻主题可信度、新闻创作者可信度、时态敏感度和政治框架方面定量分析了人类记者和 LLM 之间的差异和相似之处。我们的研究结果强调了 LLM 作为初步筛选方法的潜力,为减轻人类记者的固有偏见并增强虚假新闻检测提供了有希望的途径。
Dec, 2023