Jun, 2024

采用剩余流激活分析对大型语言模型进行防御

TL;DR借助大型语言模型(LLMs),我们提出了一种创新的防御策略,通过对 LLM 的 Transformer 层之间的残余激活分析,实现对恶意输入的攻击提示分类的高准确性,同时集成安全微调技术提升模型的鲁棒性和提高检测和缓解对抗性输入的能力。