Jul, 2024

PrimeGuard:通过无调优路由实现安全且有用的语言模型

TL;DR本研究解决了当前语言模型在安全性与有用性之间的平衡问题,提出了一种新颖的无调优路由方法PrimeGuard。该方法通过结构化控制流有效提升了模型的安全性和有用性,使得安全响应比例从61%提高到97%,并且在对抗性攻击中表现出更强的抵抗能力。