ACLMay, 2024

跨任务防御:面向内容安全的指令调优语言模型

TL;DR我们的研究旨在针对恶意文件开发强大的大型语言模型(LLMs)防御机制,并通过指导调整来提高它们处理危险内容的能力,同时维持其效用和安全之间的平衡。在我们的实证结果中,LLMs 可以通过适当的指导调整显著增强它们处理危险内容的能力。此外,加强易受滥用任务的防御策略对于保护 LLMs 免受处理有害信息的影响是有效的。我们还观察到防御策略中存在效用与安全之间的权衡,其中采用我们提出的方法的 Llama2 相比 Llama1 具有更好的平衡。