基于嵌入的对抗性消除指令调整语言模型中的安全后门
通过反向任务-不可知背门攻击的矢量预定义以避免调整反向触发器,LMSanitator实现了更好的收敛性能和背门检测准确性,同时利用prompt-tuning的特性在推断阶段进行准确快速的输出监视和输入净化。
Aug, 2023
我们研究了后门攻击,使用语言模型自动插入多样化的基于样式的触发器到文本中,并提出了一种毒素选择技术来改善攻击的效果,同时还描述了一种名为REACT的基线防御机制来缓解后门攻击。我们的评估结果表明LLMBkd攻击在各种样式上都能以高攻击成功率,且几乎不需要训练而且非常有效。
Oct, 2023
本研究旨在设计一种抵御后门攻击的微调过程,使用预训练语言模型并引入蜜罐模块,以吸收后门信息,并通过对中间层表示的约束,在微调过程中防止后门创建。在基准数据集上进行的综合实验证明了我们的防御策略的有效性和鲁棒性,与先前的最新方法相比,攻击成功率大幅降低了10%至40%。
Oct, 2023
利用强化学习从人类反馈中对大型语言模型进行调整,以生成有益且无害的回答;然而,此研究发现这些模型可以通过找到对抗性提示来解开监狱束缚,因此本文考虑了新的威胁,即攻击者通过植入“监狱解锁后门”来污染强化学习训练数据,并嵌入模型中;这种后门将触发词嵌入到模型中,作为一种通用的“超级用户命令”,即在任何提示中加入触发词,便可实现有害的回答,无需寻找对抗性提示;通用监狱解锁后门比先前研究的语言模型后门要更强大,我们发现使用常见的后门攻击技术在模型中植入这种后门相对困难;我们研究了强化学习从人类反馈中的设计决策对其所声称的鲁棒性的影响,并发布了一组受污染模型的基准,以促进对通用监狱解锁后门的未来研究。
Nov, 2023
通过设计一种新的数据污染攻击,本研究进一步识别了LLMs中的安全风险,并提出了一种梯度引导的后门触发器学习方法,以高效地识别对手的触发器,并确保对传统防御的逃避,同时保持内容完整性。
Feb, 2024
通过提出模拟和消除(SANDE)方法,本文针对生成式大规模语言模型(LLMs)中的后门攻击问题,提出了覆盖式监督微调(OSFT)方法和SANDE两阶段框架,以有效去除已知和未知触发器所引起的不良数据映射,实现LLMs的安全增强,保持其强大能力,而无需额外访问未受后门攻击的模型。
May, 2024
本研究解决了大型语言模型(LLM)在文本生成中易受后门攻击的缺口,提供了首个综合基准测试BackdoorLLM以研究此类攻击。通过多样化攻击策略与200多个实验评估,研究揭示了LLM中后门的有效性和局限性,旨在提升对后门威胁的认识并推动AI安全的发展。
Aug, 2024
本研究解决了基于白箱攻击理念的后门攻击在大语言模型中的应用缺乏探索的问题。提出了一种新型后门攻击方法,通过专门设计的架构模块实现触发器检测和噪声注入,成功在不需要训练的情况下对模型施加攻击。实验表明,该攻击方法能在严苛的微调和重训练过程中存活,且能有效躲避基于输出概率的防御措施,具有实际威胁性。
Sep, 2024
本研究针对大型语言模型中存在的后门攻击脆弱性进行深入探讨,弥补了对白盒攻击方法研究的不足。提出了一种新型架构后门攻击,利用独立的模块进行触发检测和噪声注入,有效扰动特征分布。实验表明该攻击方法能够逃避再训练过程和基于输出概率的防御,展示了其对大型语言模型的实际威胁。
Sep, 2024
本研究旨在解决大语言模型(LLMs)面临的后门攻击问题,这些攻击因模型规模扩大而愈发严重。论文提出了一种全面的调查,涵盖了LLMs在发展和推理过程中出现的后门威胁,以及最新的防御与检测策略。研究的主要发现是,尽管已有进展,但在应对这些威胁方面仍面临许多挑战,需进一步研究。
Sep, 2024