Feb, 2024
LLM 越狱攻击与防御技术 -- 综合研究
LLM Jailbreak Attack versus Defense Techniques -- A Comprehensive Study
Zihao Xu, Yi Liu, Gelei Deng, Yuekang Li, Stjepan Picek
TL;DR该研究对破解大型语言模型(LLMs)及其防御技术进行了全面分析,评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果,并释放了数据集和测试框架,以促进 LLM 安全领域的进一步研究。