damaging content | BriefGPT

关键词damaging content

搜索结果 - 1

大型语言模型对于生成有害内容的鱼目混珠攻击存在漏洞
通过诱饵和转换攻击，大型语言模型能够将安全文本转化为有害内容，这提醒我们在开发可靠的安全保护机制时需要考虑后续转换。
PDF4 months ago