识别和减轻 LLM 集成应用程序中的漏洞
本研究讨论了如何通过注入恶意提示,以及从 Web 中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型 (LLMs) 进行 Prompt Injection 攻击。研究表明,这种攻击是实际可行的,需要加强技术进行缓解。
Feb, 2023
本文在探讨大语言模型的发展和分发迅速增长的背景下,关注其安全和安全相关威胁和漏洞的最新研究工作,并提供了已有的科学努力概述,以识别和缓解与大语言模型相关的威胁和漏洞。通过我们的工作,希望在资深开发人员和新颖技术用户中增强对大语言模型的局限性和安全问题的意识。
Aug, 2023
本研究使用自动化工作流程,对 ChatGPT、LLaMA 和 OPT 等主流 LLM 进行了数百万次查询,得出了 LLM 在稳健性、一致性和可信度方面存在的问题,提出了一种新的关联数据集索引来评估使用 LLM 进行学术评估的可行性。
May, 2023
本文提出了一种系统评估 LLM 集成系统中机密性的方法,通过形式化 “秘密密钥” 游戏来比较模型的脆弱性和不同防御策略的有效性,发现当前的防御策略在攻击策略方面缺乏泛化能力,并提出了一种受对抗训练启发的鲁棒性微调方法,有效降低了攻击成功率并提高了系统对未知攻击的弹性。
Feb, 2024
大型语言模型在最近几年取得了迅猛的进展,其能力正在不断加速,通过各种基准测试,其能力接近于人类的水平。由于存在未解决的脆弱性和限制,人们在将这些模型应用于智能和安全关键应用之前需要谨慎。本文回顾了与 LLM 评估和脆弱性相关的最新文献,综合当前的研究进展,并帮助了解哪些进步对于在智能和安全关键应用中使用这些技术最为关键。这些脆弱性被分为十个高级类别,并与 LLM 的一个高级生命周期进行了叠加。还对一些常见的缓解措施进行了综述。
Dec, 2023
通过探讨语言学习模型的安全威胁,本文全面研究了一系列涉及伦理道德的挑战,包括数据安全、隐私保护等问题,提出了一种定制的评估工具,用于加强语言学习模型的后端系统,并在测试阶段评估其伦理维度与社会伦理价值之间的一致性。
Jan, 2024
在本文中,我们系统地分析了 LLM 系统的安全性,通过建立信息流及其在 LLM 内部和 LLM 与其他对象之间的一致性约束,将 LLM 系统的攻击面分解为三个关键部分:多层安全分析,约束存在性分析和这些约束的鲁棒性分析。通过对最新的 LLM 系统 OpenAI GPT4 的多层和多步骤分析,我们发现了不仅仅存在于 LLM 模型本身,还包括与其他组件整合的安全问题。我们发现尽管 OpenAI GPT4 已经设计了多重安全约束来提高其安全性,但这些安全约束仍然容易受到攻击。为了进一步展示我们发现的漏洞的现实威胁,我们构建了一个端到端攻击,黑客可以非法获取用户的聊天历史,而无需操纵用户的输入或直接访问 OpenAI GPT4。
Feb, 2024
这篇论文探讨了大型语言模型与安全和隐私的交叉领域,研究了它们对安全和隐私的积极影响、潜在的风险和威胁,以及模型本身的固有漏洞。通过全面的文献综述,将研究结果分为 “有益” 的应用、恶意应用和漏洞及其防御措施。论文还指出了需要进一步研究的领域,并希望通过该研究揭示大型语言模型在加强和危及网络安全方面的潜力。
Dec, 2023
对大型语言模型(LLMs)的安全与隐私问题进行了全面的研究,从安全与隐私问题、对抗性攻击的脆弱性、滥用影响、缓解策略以及当前策略的局限性等五个主题角度进行深入探讨,并提出了未来研究的有前景的方向,以增强 LLMs 的安全和风险管理。
Mar, 2024