评估大型语言模型安全性的因果分析
通过对 Llama 2 的案例进行研究,评估了安全措施对已减轻的偏见的效果,并发现安全与有益性的权衡在某些人群中更加明显,可能对边缘化群体造成服务质量损害。
Mar, 2024
调查了大型语言模型(LLMs)是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施,实验结果表明,LLMs 成功地找到了对抗性扰动,有效地破坏了仇恨言论检测系统,这对依赖 LLMs 的(半)自主系统与现有系统和安全措施的交互带来了重要挑战。
Feb, 2024
通过在聊天系统中引入虚构的上下文,利用大型语言模型中的错误分类和上下文混淆的问题,可以进行上下文注入攻击,破坏实时交互的大型语言模型的安全性。研究发现了进行上下文注入攻击的策略并验证了其高成功率,同时提出了攻击检测和开发更安全模型的可能对策。
May, 2024
通过将自然语言输入转化为代码输入,CodeAttack 框架揭示了大型语言模型的安全泛化性问题,并发现了代码领域中的新安全风险,需要更健壮的安全对齐算法来匹配大型语言模型的代码功能。
Mar, 2024
大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域,本文调查了该领域的相关研究,并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。
Oct, 2023
该研究对破解大型语言模型(LLMs)及其防御技术进行了全面分析,评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果,并释放了数据集和测试框架,以促进 LLM 安全领域的进一步研究。
Feb, 2024
大型语言模型 (LLMs) 的开放性和出色能力可能导致新的安全问题,在恶意利用中容易产生很难通过零样本提示检测出来的多样化的内隐性毒性输出。此外,我们提出了一种基于强化学习 (RL) 的攻击方法,进一步诱发 LLMs 中的内隐性毒性。例如,RL - 调优后的 LLaMA-13B 模型在 BAD 和 Davinci003 上分别达到 90.04% 和 62.85% 的攻击成功率。我们的研究结果表明,LLMs 在生成不可检测的内隐性毒性输出方面构成了重大威胁。我们进一步展示,对我们攻击方法生成的示例进行毒性分类器的微调可以有效增强其检测 LLM 生成的内隐性毒性语言的能力。
Nov, 2023
大型语言模型是各种人工智能应用中的关键组件,理解它们的安全漏洞和防御机制的有效性至关重要。本文调查了 LLMs 的安全挑战,重点关注两个主要领域:Prompt Hacking 和 Adversarial Attacks,每个领域都有特定类型的威胁。通过对 Prompt Hacking 和 Adversarial Attacks 的分析,研究了它们的工作原理、潜在影响以及缓解方法。调查强调了这些安全挑战,并讨论了保护 LLMs 免受这些威胁的强大防御框架。通过详细阐述这些安全问题,调查为抵御复杂攻击的坚韧人工智能系统的构建提供了宝贵的讨论。
Jun, 2024
过去十年来,人们对神经网络的鲁棒性进行了广泛的研究,但这个问题依然没有得到很好的解决。在这篇论文中,我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件,同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。最后,我们通过一个最近提出的防御方法进行演示,展示了在没有针对大型语言模型的最佳实践的情况下,过高估计新方法的鲁棒性的容易性。
Oct, 2023