检测 LLM 生成的文本的科学
大语言模型生成的文本检测是一项关键任务,需要开发检测器来区分其文本是否由大语言模型生成,并呼吁加强相关研究以推进负责任的人工智能实现。
Oct, 2023
综述了大规模语言模型(LLMs)生成内容检测的现有策略和基准,并指出该领域的关键挑战和前景,提倡采用更加适应性和稳健的模型来提高检测准确性,以及应对 LLMs 能力快速发展的多方面防御方法的必要性。该工作是在 LLMs 时代首部全面综述内容检测的研究,旨在为研究人员和从业者提供广泛了解 LLMs 生成内容检测的当前情况的指导参考,以保护数字信息的完整性。
Oct, 2023
大语言模型(LLM)的出现具有革命性的影响。然而,像 ChatGPT 这样的 LLM 是否可能被滥用来生成误导信息,对在线安全和公众信任构成了严重关注。我们从检测难度的角度提出了一个基本的研究问题:LLM 生成的误导信息是否比人类编写的误导信息具有更大的危害性?通过我们的实证研究,我们发现相比于具有相同语义的人类编写的误导信息,LLM 生成的误导信息对于人类和检测器来说更难以检测,这表明它可能具有更具欺骗性的风格,并有可能造成更大的伤害。我们还讨论了我们发现对抗 LLM 时的误导信息在信息时代和相应对策的影响。
Sep, 2023
通过回答三个研究问题,本研究探讨了利用大型语言模型(LLMs)生成的谣言和虚假信息对目前存在的谣言检测技术的影响,以及通过使用 LLMs 作为强大的谣言防御手段以及针对这一威胁的新方法的可能性。
Sep, 2023
利用自动检测器识别大型语言模型辅助写作的研究,发现目前的四种先进的自动生成文本检测器性能不佳,提出专门针对大型语言模型辅助写作检测的专用检测器的发展是必要的。这样的检测器可以在科学交流中促进对大型语言模型参与的真实认可,并解决目前对认可实践的挑战。
Jan, 2024
本文评估了 8 个公开可用的大型语言模型生成文本检测器的准确性,假阳性和弹性,并发现 CopyLeaks 是最准确的大型语言模型生成文本检测器,GPTKit 是减少假阳性的最佳大型语言模型生成文本检测器,而 GLTR 是最弹性的大型语言模型生成文本检测器。
Jul, 2023
在大语言模型 (LLMs) 时代,我们发现许多现有的假新闻检测器存在显著偏见,更容易将 LLMs 生成的内容标记为假新闻,而常常误将人类撰写的假新闻分类为真实。为了解决这个问题,我们引入了一种对抗训练与 LLMs 重写的真实新闻相结合的缓解策略,从而在人类和 LLMs 生成的新闻的检测准确性方面取得了显著的改进。为了进一步推动该领域的研究,我们发布了两个全面的数据集 “GossipCop++” 和 “PolitiFact++”,将经人工验证的文章与 LLMs 生成的假新闻和真实新闻相结合。
Sep, 2023