Feb, 2025
UniGuardian:一种统一防御机制用于检测大型语言模型中的提示注入、后门攻击和对抗攻击
UniGuardian: A Unified Defense for Detecting Prompt Injection, Backdoor
Attacks and Adversarial Attacks in Large Language Models
TL;DR本研究解决了大型语言模型(LLMs)易受提示注入、后门攻击和对抗攻击等攻击类型的问题,提出了一个统一的防御机制UniGuardian。该机制首次能够同时检测多种攻击,并通过单次前向传播优化检测流程,显著提高了对恶意提示的识别准确性和效率。