Feb, 2024
通过潜意识利用和外部反映实现对 LLMs 的快速破解优化
Rapid Optimization for Jailbreaking LLMs via Subconscious Exploitation and Echopraxia
Guangyu Shen, Siyuan Cheng, Kaiyuan Zhang, Guanhong Tao, Shengwei An...
TL;DR通过 RIPPLE 方法,我们展示了对大型语言模型进行有效攻击的可能性,它涉及到大型语言模型的安全问题以及心理概念的应用。