大规模语言模型的对抗性搜索引擎优化

Jun, 2024

大规模语言模型的对抗性搜索引擎优化

Adversarial Search Engine Optimization for Large Language Models

Fredrik Nestaas, Edoardo Debenedetti, Florian Tramèr

TL;DR大语言模型（LLM）被越来越多地应用于模型在选择竞争的第三方内容方面，比如 LLM 驱动的搜索引擎或聊天机器人插件。本文介绍了一种新的攻击类型 —— 偏好操纵攻击，可以通过精心编写的网站内容或插件文档来误导 LLM 以提升攻击者产品的地位并贬低竞争对手，从而增加用户流量和变现。我们展示了这种攻击导致囚徒困境，其中所有各方都有动机发动攻击，但是整体效果会降低 LLM 的输出质量。我们在生产环境的 LLM 搜索引擎（Bing 和 Perplexity）以及插件 API（用于 GPT-4 和 Claude）上演示了我们的攻击。随着 LLM 被越来越多地用于排列第三方内容，我们预计偏好操纵攻击将成为一个重大威胁。

Abstract

large language models (LLMs) are increasingly used in applications where the model selects from competing third-party content, such as in LLM-powered search engines or chatbot plugins. In this paper, we introduce

large language models preference manipulation attacks llm-powered search engines plugin documentations third-party content

发现论文，激发创造

会话式搜索引擎的排名操纵

该研究调查了提示注入对对话式搜索引擎参考来源的排序顺序的影响，并提出了一种基于攻击树的越狱技术，可可靠地提升低排名产品。

Jun, 2024

探索大型语言模型的对抗能力

调查了大型语言模型（LLMs）是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施，实验结果表明，LLMs 成功地找到了对抗性扰动，有效地破坏了仇恨言论检测系统，这对依赖 LLMs 的（半）自主系统与现有系统和安全措施的交互带来了重要挑战。

Feb, 2024

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

大型语言模型是否可以通过对抗方式改变用户偏好？

本研究从注意力探测、红队作战和白盒分析等多个角度，探讨预训练大型语言模型在用户喜好中的敌对行为，并针对 ChatGPT 和 GODEL 等对话模型提供红队样本，同时探究后者在非对抗性和对抗性环境下的注意力机制。

Jan, 2023

对大规模语言模型的对抗欺骗攻击效率

使用五种不同的大型语言模型（LLMs）进行情感分类任务时，针对三种不同类型的对抗攻击，该研究分析了攻击的有效性、效率和实用性，发现词级攻击更有效，而字符级攻击则更实用且所需的改动和查询数量较少，因此在开发对抗性防御策略以训练更具鲁棒性的 LLMs 用于智能文本分类应用时需考虑这些差异。

Jun, 2024

在大型语言模型中使用视觉对抗样本错误使用工具

大型语言模型对多模态处理和工具使用能力的增强带来了新的好处和安全风险，本文揭示了攻击者可以使用视觉对抗样本来引发特定工具使用的能力。攻击可以影响与 LLM 连接的用户资源的机密性和完整性，同时保持隐秘性，并且可泛化到多个输入提示。通过基于梯度的对抗训练构建这些攻击，并在多个维度上表征其性能。研究发现，我们的对抗图像几乎总能以接近真实语法的方式操控 LLM 来调用工具（准确率约为 98%），同时保持与原始图像的高相似度（约 0.9 SSIM）。此外，通过人工评分和自动化指标，我们发现这些攻击对用户与 LLM 之间的对话（及其语义）没有显著影响。

Oct, 2023

大规模语言模型应用的词汇攻击

使用来自攻击模型的嵌入和优化过程插入模型词汇，我们证明了我们的方法可以成功劫持两个流行的开源大语言模型 Llama2 和 Flan-T5，并显示了我们的方法具有不易被察觉的特点，且仅需插入单个词汇即可进行攻击，我们还证明可以使用不同于目标模型的模型进行攻击。

Apr, 2024

三明治攻击：针对 LLMs 的多语言混合自适应攻击

本文介绍了一种新的黑盒攻击向量 —— 三明治攻击，通过操纵最先进的大型语言模型（LLMs）生成有害和不一致的回答，旨在引导未来的研究和发展，使 LLMs 更加安全可靠，确保它们为公共利益服务并最大程度地减少滥用的潜力。

Apr, 2024

迫使语言模型（LLMs）做和透露（几乎）任何事情

广义的对大型语言模型进行的对抗性攻击研究了攻击面和攻击目标，并对具体例子进行了分类和系统化，如误导、模型控制、服务拒绝或数据提取，并分析了这些攻击的实验结果。

Feb, 2024

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023