Aug, 2024

h4rm3l:可组合越狱攻击的动态基准评估大型语言模型的安全性

TL;DR本研究针对大型语言模型(LLMs)在生成有害内容方面的安全性评估缺乏足够基准的问题,提出了一种新颖的动态基准h4rm3l,用于可组合越狱攻击。研究显示,该方法生成的2656种越狱攻击在有效性上超过90%,为理解LLMs的安全局限性和发展强大防御提供了支持。