辨别虚假信息:在 LLMs 时代的不断挑战
大语言模型(LLM)的出现具有革命性的影响。然而,像 ChatGPT 这样的 LLM 是否可能被滥用来生成误导信息,对在线安全和公众信任构成了严重关注。我们从检测难度的角度提出了一个基本的研究问题:LLM 生成的误导信息是否比人类编写的误导信息具有更大的危害性?通过我们的实证研究,我们发现相比于具有相同语义的人类编写的误导信息,LLM 生成的误导信息对于人类和检测器来说更难以检测,这表明它可能具有更具欺骗性的风格,并有可能造成更大的伤害。我们还讨论了我们发现对抗 LLM 时的误导信息在信息时代和相应对策的影响。
Sep, 2023
该研究对大型语言模型生成文本的检测技术现状及未来方向进行了综述,并提出了发展全面的评估指标和威胁控制方案等必要措施。关注点包括大型语言模型的开源威胁和其所产生的可能的误传信息问题。
Feb, 2023
综述了大规模语言模型(LLMs)生成内容检测的现有策略和基准,并指出该领域的关键挑战和前景,提倡采用更加适应性和稳健的模型来提高检测准确性,以及应对 LLMs 能力快速发展的多方面防御方法的必要性。该工作是在 LLMs 时代首部全面综述内容检测的研究,旨在为研究人员和从业者提供广泛了解 LLMs 生成内容检测的当前情况的指导参考,以保护数字信息的完整性。
Oct, 2023
探测不断演化的大型语言模型生成的虚假信息的研究问题,通过预训练语言模型的普遍事实核查能力和各种大型语言模型的独立虚假信息生成特征,提出一种参数高效的方法 DELD,通过序列连接模型的学习特征以促进知识积累和转换,并通过与可训练的软提示结合,解决标签稀缺的问题,实验证明该方法显著优于现有方法,对不同大型语言模型的虚假信息生成模式提供了重要洞察,为该领域研究提供了有价值的观点。
Jun, 2024
我们提出了一种新型的 “以毒攻毒” 策略,利用现代大型语言模型的生成和推理能力来对抗人类撰写和大型语言模型生成的虚假信息。通过使用 GPT-3.5-turbo 合成真实和具有欺骗性的大型语言模型生成内容,并结合上下文语义推理技术判断真实和虚假的帖子和新闻文章,我们观察到 GPT-3.5-turbo 在不同数据集上的优越性,准确率达到 68-72%。
Oct, 2023
本文研究了现代大型语言模型的潜在滥用问题,并探讨其对信息密集型应用的影响,特别是对开放式问题回答系统。我们建立了一个威胁模型,模拟了可能的滥用场景,证明了大型语言模型可以作为有效的错误信息产生器,导致开放式问题回答系统的性能显著降低。为了减轻大型语言模型生成的错误信息带来的危害,我们探索了三种防御策略:提示、错误信息检测和多数投票。尽管最初的结果显示这些防御策略具有有利趋势,但仍需要更多的工作来解决错误信息污染的挑战。我们的工作强调了进一步研究和跨学科合作的必要性,以应对大型语言模型生成的错误信息,促进大型语言模型的负责任使用。
May, 2023
大型语言模型在虚假信息检测任务中的性能研究显示,多样的启发式方式和多个实例学习策略可以提高大型语言模型在文本和传播结构理解方面的检测性能,突出了大型语言模型检测虚假信息的潜在能力。
Nov, 2023
在大语言模型 (LLMs) 时代,我们发现许多现有的假新闻检测器存在显著偏见,更容易将 LLMs 生成的内容标记为假新闻,而常常误将人类撰写的假新闻分类为真实。为了解决这个问题,我们引入了一种对抗训练与 LLMs 重写的真实新闻相结合的缓解策略,从而在人类和 LLMs 生成的新闻的检测准确性方面取得了显著的改进。为了进一步推动该领域的研究,我们发布了两个全面的数据集 “GossipCop++” 和 “PolitiFact++”,将经人工验证的文章与 LLMs 生成的假新闻和真实新闻相结合。
Sep, 2023
利用大型语言模型(LLMs),本文研究了识别误导性与非误导性新闻标题的效果。研究发现模型性能存在显著差异,ChatGPT-4 在一致标注者就误导性标题达成一致意见的情况下表现出更准确的结果。文章强调了人本评估在开发 LLMs 中的重要性,旨在将技术能力与细腻的人类判断力相结合。研究结果对 AI 伦理问题具有借鉴意义,强调了在技术先进的同时,还需要考虑伦理道德和人类解读的微妙性。
May, 2024