Feb, 2024
语义镜像越狱:基于遗传算法的越狱提升 开放源码 LLMs
Semantic Mirror Jailbreak: Genetic Algorithm Based Jailbreak Prompts Against Open-source LLMs
Xiaoxia Li, Siyuan Liang, Jiyi Zhang, Han Fang, Aishan Liu...
TL;DR介绍了一种利用语义镜像破解方法来生成与原始问题语义相似的破解提示,通过基因算法生成合适的破解提示,相比基线方法,该方法的攻击成功率提升了最多 35.4%(无 ONION 防御)和 85.2%(有 ONION 防御),同时在破解提示的语义相关性和异常值等三个语义相关指标上表现更好。