LLM 会话安全的攻击、防御和评估：一项调研

Feb, 2024

LLM 会话安全的攻击、防御和评估：一项调研

Attacks, Defenses and Evaluations for LLM Conversation Safety: A Survey

Zhichen Dong, Zhanhui Zhou, Chao Yang, Jing Shao, Yu Qiao

TL;DR现在普遍存在大型语言模型在对话应用中的应用。然而，它们被滥用来生成有害回复的风险引起了严重的社会关注，并引发了关于大型语言模型对话安全的最新研究。因此，在这项调查中，我们提供了最近研究的综述，涵盖了大型语言模型对话安全的三个关键方面：攻击、防御和评估。我们的目标是提供一个结构化的概述，以增进对大型语言模型对话安全的理解，并鼓励对这个重要主题进行进一步的研究。为了方便参考，我们根据我们的分类法对本调查中提到的所有研究进行了分类。分类信息可在此 https URL 查看。

Abstract

large language models (LLMs) are now commonplace in conversation applications. However, their risks of misuse for generating harmful responses have raised serious societal concerns and spurred recent research on LLM conversation safety. Therefore, in this survey, we provide a comprehen

large language models llm conversation safety attacks defenses evaluations

发现论文，激发创造

大型语言模型攻击的比较调查

通过综述各种在大型语言模型上攻击的形式及机制，以及其潜在影响和当前的防御策略，该论文探讨了大型语言模型的安全性和脆弱性方面的问题。研究主题包括旨在操纵模型输出的对抗性攻击、影响模型训练的数据污染，以及与训练数据利用相关的隐私问题。论文还探讨了不同攻击方法的有效性、大型语言模型对这些攻击的弹性以及对模型完整性和用户信任的影响。通过研究最新的研究成果，提供对大型语言模型的脆弱性和防御机制的深入了解，旨在引起人工智能社区的关注，并激发切实解决这些风险的方法。

Mar, 2024

评估大型语言模型：综述

该研究综述了大型语言模型的评估方法，并提出了知识与能力评估、对齐评估和安全评估三个主要方面的评估方法，以及涵盖能力、对齐、安全和适用性的综合评估平台的构建。希望该综述能够推动对大型语言模型评估的更多研究兴趣，以促进负责任发展和最大化社会利益，同时最小化潜在风险。

Oct, 2023

大型语言模型的安全与隐私挑战概述

该文综述了大型语言模型在安全与隐私方面面临的挑战，分析了其脆弱性，并审查了潜在的攻击方式与防御机制，还指出了该领域中的研究空白与未来发展方向。

Jan, 2024

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023

在 LLM 时代的社交工程攻击防御

本研究探讨了大型语言模型（LLMs）作为聊天式社交工程（CSE）攻击的助手和防御者所面临的挑战，开发了一个模拟学术和招聘场景的数据集 SEConvo，揭示了 LLMs 在这些情境中的利用和检测能力，设计了 ConvoSentinel 以提高检测效果，强化 CSE 攻击的辨识能力，凸显了在网络安全领域中利用 LLMs 的需求。

Jun, 2024

跨任务防御：面向内容安全的指令调优语言模型

我们的研究旨在针对恶意文件开发强大的大型语言模型（LLMs）防御机制，并通过指导调整来提高它们处理危险内容的能力，同时维持其效用和安全之间的平衡。在我们的实证结果中，LLMs 可以通过适当的指导调整显著增强它们处理危险内容的能力。此外，加强易受滥用任务的防御策略对于保护 LLMs 免受处理有害信息的影响是有效的。我们还观察到防御策略中存在效用与安全之间的权衡，其中采用我们提出的方法的 Llama2 相比 Llama1 具有更好的平衡。

May, 2024

多模态大型语言模型在图像和文本上的安全性

对多模态大型语言模型的安全进行评估、攻击和防御的系统性调查，包括对图像和文本上的安全问题的研究和讨论。

Feb, 2024

互动伦理学：减轻 LLM 中的安全威胁

通过探讨语言学习模型的安全威胁，本文全面研究了一系列涉及伦理道德的挑战，包括数据安全、隐私保护等问题，提出了一种定制的评估工具，用于加强语言学习模型的后端系统，并在测试阶段评估其伦理维度与社会伦理价值之间的一致性。

Jan, 2024

大型语言模型中的隐私：攻击、防御与未来方向

给出了当前针对大型语言模型（LLMs）的隐私攻击的全面分析，并对其进行了分类，同时提供了用于对抗这些隐私攻击的重要防御策略，并指出了 LLMs 发展中可能出现的新的隐私问题和未来的研究方向。

Oct, 2023

LLMs 在非法目的中的使用：威胁、预防措施和漏洞

本文在探讨大语言模型的发展和分发迅速增长的背景下，关注其安全和安全相关威胁和漏洞的最新研究工作，并提供了已有的科学努力概述，以识别和缓解与大语言模型相关的威胁和漏洞。通过我们的工作，希望在资深开发人员和新颖技术用户中增强对大语言模型的局限性和安全问题的意识。

Aug, 2023