BriefGPT.xyz
Ask
alpha
关键词
self-deception attack
搜索结果 - 1
自我欺骗:大型语言模型语义防火墙的逆渗透
通过研究语言模型监管的方法和攻击,本文提出一种自动破解监管的方法,即引入语意防火墙概念并提供三种技术实现方式,从而成功地实施了 “自欺” 攻击。实验证明该方法的有效性,为未来研究提供了启示。
PDF
a year ago
Prev
Next