大型语言模型检测器在现实世界中仍然不足：以大型语言模型生成的短新闻类帖子为例

Sep, 2024

大型语言模型检测器在现实世界中仍然不足：以大型语言模型生成的短新闻类帖子为例

LLM Detectors Still Fall Short of Real World: Case of LLM-Generated Short News-Like Posts

Henrique Da Silva Gameiro, Andrei Kucharavy, Ljiljana Dolamic

TL;DR本研究解决了现有大型语言模型（LLM）检测器在应对由中等复杂度攻击者生成的短新闻类信息时的有效性问题。我们发现，不论是零-shot检测器还是特别训练的检测器，其在真实场景中的表现都显著不足，且现有检测方法在增强随机抽样温度的攻击下表现不佳。这表明需要对LLM检测器的基准评估方法进行重新考量，并提出了一个动态可扩展的基准来支持这一点。

Abstract

With the emergence of widely available powerful LLMs, Disinformation generated by large Language Models (LLMs) has become a major concern. Historically, LLM Detectors have been touted as a solution, but their eff

发现论文，激发创造

不良演员，良好顾问：大型语言模型在假新闻检测中的作用探究

基于大型语言模型的虚假新闻检测研究发现，大型语言模型虽然能提供多元的合理解释，却无法像基于小语言模型的训练过程那样适当选择和结合解释来得出结论。因此，当前的大型语言模型不能替代小型语言模型在虚假新闻检测中的作用，但可以作为小型语言模型的顾问，提供多元的启示性解释。为了实现这一点，作者设计了自适应启示指导网络（ARG）用于虚假新闻检测，在这个网络中，小型语言模型从大型语言模型的解释中选择性地获取新闻分析的见解。另外，作者还提出了一个消除解释的版本ARG-D，用于成本敏感的情境，无需查询大型语言模型。实验证明，ARG和ARG-D在两个真实数据集上的表现优于基于小型语言模型、大型语言模型以及小型和大型语言模型组合的三种基准方法。

Sep, 2023

基于LLM的文本检测调查：必要性、方法和未来方向

大语言模型生成的文本检测是一项关键任务，需要开发检测器来区分其文本是否由大语言模型生成，并呼吁加强相关研究以推进负责任的人工智能实现。

Oct, 2023

用火攻火：LLM在制作和检测隐蔽虚假信息中的双重作用

我们提出了一种新型的“以毒攻毒”策略，利用现代大型语言模型的生成和推理能力来对抗人类撰写和大型语言模型生成的虚假信息。通过使用GPT-3.5-turbo合成真实和具有欺骗性的大型语言模型生成内容，并结合上下文语义推理技术判断真实和虚假的帖子和新闻文章，我们观察到GPT-3.5-turbo在不同数据集上的优越性，准确率达到68-72%。

Oct, 2023

大语言模型在社交媒体机器人检测中的机遇与风险

社交媒体机器人检测一直是机器学习机器人检测器和对抗机器人策略之间的一场军备竞赛。本研究将这场竞赛提升到了一个新的水平，通过研究最先进的大型语言模型（LLMs）在社交机器人检测中的机会和风险，设计了基于LLM的机器人检测器，并探索了LLM引导的操纵用户文本和结构化信息来逃避检测的可能性。实验结果表明，仅仅在1000个注释示例上进行的指令调优可以产生专门的LLMs，它们在两个数据集上的表现比最先进的基线方法提高了高达9.1%，而LLM引导的操纵策略可以将现有的机器人检测器的性能显著降低高达29.6%，并损害机器人检测系统的校准和可靠性。

Feb, 2024

探索大型语言模型的对抗能力

调查了大型语言模型（LLMs）是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施，实验结果表明，LLMs成功地找到了对抗性扰动，有效地破坏了仇恨言论检测系统，这对依赖LLMs的（半）自主系统与现有系统和安全措施的交互带来了重要挑战。

Feb, 2024

LLM作为法官是否稳健？对零样本LLM评估进行普适对抗攻击研究

LLM评估器的脆弱性以及连接攻击的影响对于高风险实际场景的部署提出了重要的关注和需求。

Feb, 2024

大型语言模型攻击的比较调查

通过综述各种在大型语言模型上攻击的形式及机制，以及其潜在影响和当前的防御策略，该论文探讨了大型语言模型的安全性和脆弱性方面的问题。研究主题包括旨在操纵模型输出的对抗性攻击、影响模型训练的数据污染，以及与训练数据利用相关的隐私问题。论文还探讨了不同攻击方法的有效性、大型语言模型对这些攻击的弹性以及对模型完整性和用户信任的影响。通过研究最新的研究成果，提供对大型语言模型的脆弱性和防御机制的深入了解，旨在引起人工智能社区的关注，并激发切实解决这些风险的方法。

Mar, 2024

探索LLM生成的虚假新闻的欺骗力：对现实世界检测挑战的研究

最近大规模语言模型（LLMs）的进展使得虚假新闻的制造成为可能，本研究旨在确定提示技术是否能够有效缩小LLM生成的虚假新闻的欺骗性差距，通过提出一种名为条件变分自编码类提示（VLPrompt）的强大虚假新闻攻击方法，该方法无需额外的数据采集，并且保持了上下文的一致性和原始文本的细节。为了推动VLPrompt攻击的检测研究，我们创建了一个新的数据集名为VLPrompt虚假新闻（VLPFN），其中包含真实文本和假文本。我们进行了各种检测方法和新颖的人类研究指标的实验，来评估它们在我们的数据集上的性能，得出了众多发现。

Mar, 2024

评估大型语言模型的对抗性鲁棒性：一项实证研究

对大型语言模型的鲁棒性进行了攻击和评估，并在五项不同的文本分类任务上建立了新的鲁棒性基准，研究结果对可靠部署语言模型并推动可信人工智能系统的发展具有重要意义。

May, 2024

从欺骗到检测：大型语言模型在假新闻中的双重角色

本研究针对假新闻对信息生态系统和公众信任的威胁，探讨了大型语言模型（LLMs）在生成和检测假新闻中的双重作用。研究发现，一些模型可以产生偏见的假新闻，而大型模型在检测能力上普遍优于传统模型，且LLM生成的假新闻更难被检测识别，这为假新闻的防御提供了新的视角和解决方案。

Sep, 2024