Jun, 2024
结构伪装: 利用非常见文本编码结构对大型语言模型进行自动越狱攻击
StructuralSleight: Automated Jailbreak Attacks on Large Language Models
Utilizing Uncommon Text-Encoded Structure
TL;DR该论文研究大型语言模型(LLMs)的结构对jailbreak攻击的贡献,并提出一种基于不常用文本编码结构的新型结构级攻击方法(UTES),通过构建名为StructuralSleight的自动化jailbreak工具,攻击成功率达到94.62%,并超过了现有技术的水平。