不确定性的脆弱性:对大规模语言模型中不确定性的操控
大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域,本文调查了该领域的相关研究,并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。
Oct, 2023
本文研究了基于提示的大语言模型存在的后门安全威胁,并提出了一种名为POISONPROMPT的新型后门攻击方法,实验证明在不同的任务和语言模型上都具有较高的有效性、保真度和鲁棒性,该研究强调了进一步研究这一领域的重要性。
Oct, 2023
通过综述各种在大型语言模型上攻击的形式及机制,以及其潜在影响和当前的防御策略,该论文探讨了大型语言模型的安全性和脆弱性方面的问题。研究主题包括旨在操纵模型输出的对抗性攻击、影响模型训练的数据污染,以及与训练数据利用相关的隐私问题。论文还探讨了不同攻击方法的有效性、大型语言模型对这些攻击的弹性以及对模型完整性和用户信任的影响。通过研究最新的研究成果,提供对大型语言模型的脆弱性和防御机制的深入了解,旨在引起人工智能社区的关注,并激发切实解决这些风险的方法。
Mar, 2024
我们的研究重点关注跨语言背门攻击对多语言LLM的影响,特别研究在一个或两个语言的指令调整数据中添加恶意行为如何影响未被攻击的语言的输出。我们的实证分析表明,我们的方法在mT5、BLOOM和GPT-3.5-turbo等模型中非常有效,攻击成功率高,在多种场景中超过95%。令人担忧的是,我们的发现还表明,较大的模型对可转移的跨语言背门攻击更易受攻击,这也适用于主要在英语数据上进行预训练的LLM,如Llama2、Llama3和Gemma。此外,我们的实验表明,即使经过改述,触发器仍然有效,背门机制在25种语言的跨语言响应环境中证明高度有效,攻击成功率平均达到50%。我们的研究旨在强调当前多语言LLM存在的漏洞和重大安全风险,凸显有针对性的安全措施的迫切需求。
Apr, 2024
这篇论文介绍了第一个全面的框架用于针对基于大型语言模型的决策系统的后门攻击,系统地探索了如何在微调阶段通过不同的渠道引入此类攻击。具体而言,作者提出了三种攻击机制和相应的后门优化方法,以攻击LLM决策管道中的不同组件:单词注入、场景操纵和知识注入。作者进行了广泛的实验,并展示了他们提出的后门触发器和机制的有效性和隐蔽性。最后,作者批评了自己提出方法的优点和缺点,突出了LLM在决策任务中固有的漏洞,并评估了保护LLM决策系统的潜在防御方法。
May, 2024
大型语言模型是各种人工智能应用中的关键组件,理解它们的安全漏洞和防御机制的有效性至关重要。本文调查了LLMs的安全挑战,重点关注两个主要领域:Prompt Hacking和Adversarial Attacks,每个领域都有特定类型的威胁。通过对Prompt Hacking和Adversarial Attacks的分析,研究了它们的工作原理、潜在影响以及缓解方法。调查强调了这些安全挑战,并讨论了保护LLMs免受这些威胁的强大防御框架。通过详细阐述这些安全问题,调查为抵御复杂攻击的坚韧人工智能系统的构建提供了宝贵的讨论。
Jun, 2024
该研究论文侧重于细调方法,系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击,并讨论了未来研究中关键问题,例如无需细调的攻击算法和更隐蔽的攻击算法,以填补现有后门攻击调查的知识空白。
Jun, 2024
在高风险应用中使用大型语言模型(LLMs)时,我们需要知道何时可以信赖它们的预测。本研究首先论证了仅仅使用提示是不足以实现良好校准的,然后展示了在一个小数据集上进行精调以创建具有良好概括性和小计算开销的不确定性估计的方法。我们还研究了可靠的LLM不确定性估计的机制,并通过用户研究展示了不确定性估计如何影响人与AI的协作环境中的人类使用LLMs。
Jun, 2024
通过采用ObscurePrompt方法,从模糊的文本入手,并利用强大的LLM进行迭代转换,增强攻击的稳健性,从而提高对LLM的破解效果,并改进先前的方法,以增强LLM的对齐性能。
Jun, 2024