遮蔽哄骗:规避 ChatGPT 的安全措施,大规模生成难以检测的虚假宣称
大语言模型(LLM)的出现具有革命性的影响。然而,像 ChatGPT 这样的 LLM 是否可能被滥用来生成误导信息,对在线安全和公众信任构成了严重关注。我们从检测难度的角度提出了一个基本的研究问题:LLM 生成的误导信息是否比人类编写的误导信息具有更大的危害性?通过我们的实证研究,我们发现相比于具有相同语义的人类编写的误导信息,LLM 生成的误导信息对于人类和检测器来说更难以检测,这表明它可能具有更具欺骗性的风格,并有可能造成更大的伤害。我们还讨论了我们发现对抗 LLM 时的误导信息在信息时代和相应对策的影响。
Sep, 2023
本研究的主要目的是提供 ChatGPT 检测的最新技术的全面评估,同时我们评估了其他 AI 生成的文本检测工具,以检测 ChatGPT 生成的内容。此外,我们还创建了一个基准数据集用于评估各种技术在检测 ChatGPT 生成内容方面的性能。研究结果表明,现有方法都不能有效地检测 ChatGPT 生成的内容。
Apr, 2023
ChatGPT 的生成、解释和检测虚假新闻的能力进行了全面的探索,证明了其在生成高质量虚假新闻样本、解释虚假新闻特点和检测虚假新闻方面表现良好,但仍有改进的空间,并进一步研究了提升其检测能力的潜在额外信息。
Oct, 2023
通过回答三个研究问题,本研究探讨了利用大型语言模型(LLMs)生成的谣言和虚假信息对目前存在的谣言检测技术的影响,以及通过使用 LLMs 作为强大的谣言防御手段以及针对这一威胁的新方法的可能性。
Sep, 2023
通过使用 FACT-GPT 框架,我们介绍了一种自动化事实核查的方法,该方法利用大型语言模型 (LLMs) 的主张匹配阶段来识别新的社交媒体内容,无论是支持还是反驳之前被事实核查人员驳斥的主张。研究结果表明,我们的精细调节的 LLMs 在主张匹配任务中与更大型的预训练 LLMs 的性能相媲美,与人工标注结果密切一致。
Oct, 2023
利用启发式方法,本研究发现 1,140 个通过 Twitter botnet 使用 ChatGPT 生成人类风格内容的虚假个人的密集集群,并通过人工注释验证。ChatGPT 生成的内容宣传可疑网站并传播有害评论。尽管 AI botnet 中的账户可以通过其协调模式检测到,但目前最先进的大语言模型内容分类器无法区分它们和真实用户账户。这些发现强调了 AI 助推社交机器人带来的威胁。
Jul, 2023
我们提出了 FACT-GPT 这个系统,利用大型语言模型 (LLMs) 自动化事实核查中的索引匹配阶段。FACT-GPT 经训练后,可以识别与先前被揭穿的声明相符、相悖或无关的社交媒体内容。我们的评估结果表明,我们专门训练的 LLMs 在识别相关声明方面的准确性与更大型的模型相当,与人类判断非常接近。这项研究提供了一种高效的声明匹配自动化解决方案,展示了 LLMs 在支持事实核查员方面的潜力,并为该领域的进一步研究提供了宝贵的资源。
Feb, 2024
自动事实核查(使用机器学习来验证主张)已经变得至关重要,因为虚假信息已经超出了人类事实核查的能力范围。大型语言模型(LLMs),如 GPT-4,越来越受人们的信任,可以验证信息并撰写学术论文、诉讼文件和新闻文章,强调了它们在分辨真假和能够验证其输出的重要性。在这里,我们通过让 LLM 代理人表达查询、检索上下文数据和做出决策来评估 LLMs 在事实核查中的使用。重要的是,在我们的框架中,代理人解释他们的推理并引用检索到的相关来源。我们的结果显示,在配备上下文信息的情况下,LLMs 表现出更强大的能力。GPT-4 优于 GPT-3,但准确性取决于查询语言和主张的真实性。虽然 LLMs 在事实核查方面显示出前景,但仍需要谨慎使用,因为准确性不一致。我们的调研呼吁进一步研究,以更深入地了解代理人何时成功以及何时失败。
Oct, 2023
利用大型语言模型(LLMs),本文研究了识别误导性与非误导性新闻标题的效果。研究发现模型性能存在显著差异,ChatGPT-4 在一致标注者就误导性标题达成一致意见的情况下表现出更准确的结果。文章强调了人本评估在开发 LLMs 中的重要性,旨在将技术能力与细腻的人类判断力相结合。研究结果对 AI 伦理问题具有借鉴意义,强调了在技术先进的同时,还需要考虑伦理道德和人类解读的微妙性。
May, 2024