保护多轮对话语言模型免受分布式后门触发器攻击
在这篇论文中,我们通过后门攻击的视角探索了大型语言模型的脆弱性。与现有的后门攻击不同,我们的组合后门攻击(CBA)将多个触发关键词分散在不同的提示组件中,这使得攻击更加隐蔽。我们的实验证明CBA在自然语言处理和多模态任务中都是有效的。我们的工作强调了对基础大型语言模型的可信度进行增加安全性研究的必要性。
Oct, 2023
本文研究了基于提示的大语言模型存在的后门安全威胁,并提出了一种名为POISONPROMPT的新型后门攻击方法,实验证明在不同的任务和语言模型上都具有较高的有效性、保真度和鲁棒性,该研究强调了进一步研究这一领域的重要性。
Oct, 2023
最近的研究表明,大型语言模型(LLMs)容易受到称为后门攻击的安全威胁。本研究揭示了在聊天模型上实现的一种新颖的后门攻击方法,通过在不同轮次的用户输入中分发多个触发场景,并只在历史对话中出现了所有触发场景时激活后门,从而实现了高攻击成功率。
Apr, 2024
我们提出了一种新的利用上下文反馈和语义相关性的方法,通过与大型模型进行多轮对话来自适应地调整攻击策略,从而使模型产生不合理或有害内容。我们评估了该方法在不同的大型语言模型和数据集上,并展示它可以有效揭示大型语言模型的漏洞,并超越现有的攻击方法。我们的工作为攻击和防御大型语言模型提供了一种新的视角和工具,并为对话系统的安全和伦理评估做出了贡献。
May, 2024
通过提出模拟和消除(SANDE)方法,本文针对生成式大规模语言模型(LLMs)中的后门攻击问题,提出了覆盖式监督微调(OSFT)方法和SANDE两阶段框架,以有效去除已知和未知触发器所引起的不良数据映射,实现LLMs的安全增强,保持其强大能力,而无需额外访问未受后门攻击的模型。
May, 2024
回溯攻击对大型语言模型(LLM)构成重大威胁,本文提出了一种名为Chain-of-Scrutiny(CoS)的解决方案,通过为输入提供详细的推理步骤并审查推理过程以确保与最终答案的一致性,以防止回溯攻击,验证了CoS的有效性。
Jun, 2024
该研究论文侧重于细调方法,系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击,并讨论了未来研究中关键问题,例如无需细调的攻击算法和更隐蔽的攻击算法,以填补现有后门攻击调查的知识空白。
Jun, 2024
本研究解决了大型语言模型(LLM)在文本生成中易受后门攻击的缺口,提供了首个综合基准测试BackdoorLLM以研究此类攻击。通过多样化攻击策略与200多个实验评估,研究揭示了LLM中后门的有效性和局限性,旨在提升对后门威胁的认识并推动AI安全的发展。
Aug, 2024
本研究旨在解决大语言模型(LLMs)面临的后门攻击问题,这些攻击因模型规模扩大而愈发严重。论文提出了一种全面的调查,涵盖了LLMs在发展和推理过程中出现的后门威胁,以及最新的防御与检测策略。研究的主要发现是,尽管已有进展,但在应对这些威胁方面仍面临许多挑战,需进一步研究。
Sep, 2024