Jul, 2024

大型语言模型的越狱攻击与防御:综述

TL;DR通过提出全面详细的破防攻击和防御方法分类体系,本研究旨在启发未来的研究和实际应用,增强对大语言模型在对抗性攻击中的安全性保障,为发展更安全的大语言模型奠定基础。