评估大型语言模型安全性的因果分析

Dec, 2023

评估大型语言模型安全性的因果分析

Causality Analysis for Evaluating the Security of Large Language Models

Wei Zhao, Zhe Li, Jun Sun

TL;DR这项研究提出了一个轻量级因果分析框架，应用于大型语言模型，分析其存在的安全问题，尤其是对抗性扰动和特洛伊攻击，并发现了对模型造成有害提示过拟合的现象，以及一种有效的特洛伊攻击方法。

Abstract

large language models (LLMs) such as GPT and Llama2 are increasingly adopted in many safety-critical applications. Their security is thus essential. Even with considerable efforts spent on reinforcement learning

large language models security causality-analysis adversarial perturbation trojan attacks

发现论文，激发创造

从再现性伤害到服务质量伤害：一项关于 “羊驼 2” 安全保障的案例研究

通过对 Llama 2 的案例进行研究，评估了安全措施对已减轻的偏见的效果，并发现安全与有益性的权衡在某些人群中更加明显，可能对边缘化群体造成服务质量损害。

Mar, 2024

探索大型语言模型的对抗能力

调查了大型语言模型（LLMs）是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施，实验结果表明，LLMs 成功地找到了对抗性扰动，有效地破坏了仇恨言论检测系统，这对依赖 LLMs 的（半）自主系统与现有系统和安全措施的交互带来了重要挑战。

Feb, 2024

大型语言模型的上下文注入攻击

通过在聊天系统中引入虚构的上下文，利用大型语言模型中的错误分类和上下文混淆的问题，可以进行上下文注入攻击，破坏实时交互的大型语言模型的安全性。研究发现了进行上下文注入攻击的策略并验证了其高成功率，同时提出了攻击检测和开发更安全模型的可能对策。

May, 2024

通过代码探索大型语言模型的安全泛化挑战

通过将自然语言输入转化为代码输入，CodeAttack 框架揭示了大型语言模型的安全泛化性问题，并发现了代码领域中的新安全风险，需要更健壮的安全对齐算法来匹配大型语言模型的代码功能。

Mar, 2024

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023

LLM 越狱攻击与防御技术 -- 综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进一步研究。

Feb, 2024

揭示大型语言模型中的隐含毒性

大型语言模型 (LLMs) 的开放性和出色能力可能导致新的安全问题，在恶意利用中容易产生很难通过零样本提示检测出来的多样化的内隐性毒性输出。此外，我们提出了一种基于强化学习 (RL) 的攻击方法，进一步诱发 LLMs 中的内隐性毒性。例如，RL - 调优后的 LLaMA-13B 模型在 BAD 和 Davinci003 上分别达到 90.04% 和 62.85% 的攻击成功率。我们的研究结果表明，LLMs 在生成不可检测的内隐性毒性输出方面构成了重大威胁。我们进一步展示，对我们攻击方法生成的示例进行毒性分类器的微调可以有效增强其检测 LLM 生成的内隐性毒性语言的能力。

Nov, 2023

大型语言模型中的漏洞和保护探索：调查

大型语言模型是各种人工智能应用中的关键组件，理解它们的安全漏洞和防御机制的有效性至关重要。本文调查了 LLMs 的安全挑战，重点关注两个主要领域：Prompt Hacking 和 Adversarial Attacks，每个领域都有特定类型的威胁。通过对 Prompt Hacking 和 Adversarial Attacks 的分析，研究了它们的工作原理、潜在影响以及缓解方法。调查强调了这些安全挑战，并讨论了保护 LLMs 免受这些威胁的强大防御框架。通过详细阐述这些安全问题，调查为抵御复杂攻击的坚韧人工智能系统的构建提供了宝贵的讨论。

Jun, 2024

大型语言模型的因果可解释弹道

LLMGuardaril 是一个新型的框架，结合因果分析和对抗学习，以获取大型语言模型中的无偏导向表示，从而将其引导到预期的属性，同时减少偏见。

May, 2024

大型语言模型中的对抗攻击与防御：旧与新的威胁

过去十年来，人们对神经网络的鲁棒性进行了广泛的研究，但这个问题依然没有得到很好的解决。在这篇论文中，我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件，同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。最后，我们通过一个最近提出的防御方法进行演示，展示了在没有针对大型语言模型的最佳实践的情况下，过高估计新方法的鲁棒性的容易性。

Oct, 2023