大型语言模型对误导性污染的风险

May, 2023

大型语言模型对误导性污染的风险

On the Risk of Misinformation Pollution with Large Language Models

Yikang Pan, Liangming Pan, Wenhu Chen, Preslav Nakov, Min-Yen Kan...

TL;DR本文研究了现代大型语言模型的潜在滥用问题，并探讨其对信息密集型应用的影响，特别是对开放式问题回答系统。我们建立了一个威胁模型，模拟了可能的滥用场景，证明了大型语言模型可以作为有效的错误信息产生器，导致开放式问题回答系统的性能显著降低。为了减轻大型语言模型生成的错误信息带来的危害，我们探索了三种防御策略：提示、错误信息检测和多数投票。尽管最初的结果显示这些防御策略具有有利趋势，但仍需要更多的工作来解决错误信息污染的挑战。我们的工作强调了进一步研究和跨学科合作的必要性，以应对大型语言模型生成的错误信息，促进大型语言模型的负责任使用。

Abstract

In this paper, we comprehensively investigate the potential misuse of modern large language models (LLMs) for generating credible-sounding misinformation and its subsequent impact on information-intensive applica

large language models misinformation open-domain question answering threat model defense strategies

发现论文，激发创造

LLM 生成的错误信息能被检测出吗？

大语言模型（LLM）的出现具有革命性的影响。然而，像 ChatGPT 这样的 LLM 是否可能被滥用来生成误导信息，对在线安全和公众信任构成了严重关注。我们从检测难度的角度提出了一个基本的研究问题：LLM 生成的误导信息是否比人类编写的误导信息具有更大的危害性？通过我们的实证研究，我们发现相比于具有相同语义的人类编写的误导信息，LLM 生成的误导信息对于人类和检测器来说更难以检测，这表明它可能具有更具欺骗性的风格，并有可能造成更大的伤害。我们还讨论了我们发现对抗 LLM 时的误导信息在信息时代和相应对策的影响。

Sep, 2023

大型语言模型的虚假信息能力

利用 10 个大型语言模型研究其自动化虚假信息生成能力，发现该能力可生成具有威胁性的新闻文章并且难以被检测出。

Nov, 2023

大型语言模型是否能理解内容和传播路径以检测虚假信息：一个实证研究

大型语言模型在虚假信息检测任务中的性能研究显示，多样的启发式方式和多个实例学习策略可以提高大型语言模型在文本和传播结构理解方面的检测性能，突出了大型语言模型检测虚假信息的潜在能力。

Nov, 2023

辨别虚假信息：在 LLMs 时代的不断挑战

通过回答三个研究问题，本研究探讨了利用大型语言模型（LLMs）生成的谣言和虚假信息对目前存在的谣言检测技术的影响，以及通过使用 LLMs 作为强大的谣言防御手段以及针对这一威胁的新方法的可能性。

Sep, 2023

大型语言模型能否检测科学新闻报道中的错误信息？

使用大型语言模型检测科学报道中的虚假信息，针对缺乏明确标签的情况，提出了多种基于大型语言模型的基准架构和提示方法，包括零样本、少样本和连贯思维提示等。

Feb, 2024

大型语言模型中的气候虚假信息去除

气候变化的误导信息是解决人类面临的最严重威胁之一的关键障碍，本文研究了大型语言模型在气候信息方面的事实准确性。通过使用真假标记的问答数据对语言模型进行微调和评估，比较了开源模型，并评估它们对气候变化问题生成真实回答的能力。我们还研究了故意注入虚假气候信息的模型的可检测性，并发现这种注入可能不会影响模型在其他领域中的回答准确性。此外，我们比较了取消学习算法、微调和检索增强生成（RAG）在事实上对语言模型在气候变化主题上的基础的有效性。我们的评估揭示了取消学习算法对于微妙的概念性主张可能是有效的，尽管之前的研究发现它们在隐私情境下无效。这些见解旨在指导更具事实可靠性的语言模型的发展，并强调了保护语言模型免受误导攻击的额外工作的必要性。

May, 2024

虚假信息检测中的不确定性解决

使用新的方法解决 GPT-4 等大型语言模型在处理模糊或缺乏背景信息的陈述时的不确定性，并通过基于 LIAR-New 数据集的分类标签提出一个可适用于跨领域内容的框架来解析丢失的信息。我们利用这个框架生成有效的用户查询，相比基准方法，我们的方法提高了用户可回答的问题的比例 38 个百分点，宏观 F1 分类性能提高了 10 个百分点以上。因此，该方法可能成为未来对抗虚假信息的有价值组成部分。

Jan, 2024

大型语言模型生成的文本受到假新闻检测器的偏见

在大语言模型 (LLMs) 时代，我们发现许多现有的假新闻检测器存在显著偏见，更容易将 LLMs 生成的内容标记为假新闻，而常常误将人类撰写的假新闻分类为真实。为了解决这个问题，我们引入了一种对抗训练与 LLMs 重写的真实新闻相结合的缓解策略，从而在人类和 LLMs 生成的新闻的检测准确性方面取得了显著的改进。为了进一步推动该领域的研究，我们发布了两个全面的数据集 “GossipCop++” 和 “PolitiFact++”，将经人工验证的文章与 LLMs 生成的假新闻和真实新闻相结合。

Sep, 2023

DELL：基于 LLM 的误信息检测的生成式反应与解释

大语言模型在辨别新闻文章真实性方面，面临真实性和错误漫游的挑战，本研究提出了 DELL 来结合 LLMs，通过生成新闻反应、生成解释和合并专家等三个关键阶段，提高了误报检测的准确性。

Feb, 2024

利用大型语言模型纠正社交媒体的错误信息

通过提供准确可信的解释和参考资料，以及纠正多模态信息，MUSE 扩展了大型语言模型的能力，表明了使用 LLMs 有效和高效地应对现实世界的错误信息的潜力。

Mar, 2024