Dec, 2023

攻击之树:自动破解黑盒 LLM

TL;DR使用大型语言模型和树状攻击剪枝自动生成越狱(黑盒攻击)的方法,有效地生成恶意、偏见和有毒内容。