Feb, 2024

语义镜像越狱:基于遗传算法的越狱提升 开放源码 LLMs

TL;DR介绍了一种利用语义镜像破解方法来生成与原始问题语义相似的破解提示,通过基因算法生成合适的破解提示,相比基线方法,该方法的攻击成功率提升了最多 35.4%(无 ONION 防御)和 85.2%(有 ONION 防御),同时在破解提示的语义相关性和异常值等三个语义相关指标上表现更好。