BriefGPT.xyz
Ask
alpha
关键词
ripple
搜索结果 - 2
通过潜意识利用和外部反映实现对 LLMs 的快速破解优化
通过 RIPPLE 方法,我们展示了对大型语言模型进行有效攻击的可能性,它涉及到大型语言模型的安全问题以及心理概念的应用。
PDF
5 months ago
ACL
预训练模型的权重污染攻击
该研究重点讨论了使用大型预先训练模型的安全风险,提出了一种称为 RIPPLe 的正则化方法和一种称为嵌入手术的初始化方法,以防止称为权重污染的攻击,该攻击可以注入安全漏洞。进一步实验证明该攻击可能性很高,对多种应用都带来了严重威胁。
PDF
4 years ago
Prev
Next