Feb, 2024

LLM 越狱攻击与防御技术 -- 综合研究

TL;DR该研究对破解大型语言模型(LLMs)及其防御技术进行了全面分析,评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果,并释放了数据集和测试框架,以促进 LLM 安全领域的进一步研究。