Jan, 2024

通过有向表示优化的提示驱动的 LLM 保护

TL;DR通过研究使用安全提示的大型语言模型的工作机制,本文发现安全提示可以在模型表示空间中明显区分有害和无害查询,从而提出了一种名为 Directed Representation Optimization (DRO) 的方法,通过优化安全提示,显著改善了模型的安全性能。