Aug, 2024

前缀引导:大型语言模型抵御越狱攻击的方向盘

TL;DR本研究解决了大型语言模型(LLMs)在越狱攻击中存在的安全漏洞。提出了一种名为前缀引导(PG)的防御框架,通过直接设置模型输出的前几个令牌,帮助模型识别有害提示。研究表明,PG在保护模型效能的同时,相比于其他防御方法,展现出更高的有效性和优越性。