Oct, 2024

通过句末MLP重加权破解指令调优的大型语言模型

TL;DR本研究针对指令调优的大型语言模型(LLMs)的安全机制进行探讨,发现重加权MLP神经元会显著削弱模型的安全性,尤其是在句末推理时。提出的两种新型白盒破解方法增强了对已知和未知有害提示的攻击效果,展示了在多种开源LLM中的强大表现,并加深了对LLMs内部机制的理解。