CVPRApr, 2024

不要想粉色大象!

TL;DR通过分析近期的大型模型,本文展示了它们与人类智能共享的 “白熊现象” 的脆弱性,并提出了基于提示的攻击方法和认知治疗技术启发的防御策略,成功地减轻了攻击效果高达 48.22%。