Feb, 2024

大型语言模型对于生成有害内容的鱼目混珠攻击存在漏洞

TL;DR通过诱饵和转换攻击,大型语言模型能够将安全文本转化为有害内容,这提醒我们在开发可靠的安全保护机制时需要考虑后续转换。