BriefGPT.xyz
大模型
Ask
alpha
关键词
model manipulation
搜索结果 - 2
通用黑盒破解大型语言模型
介绍了一种使用遗传算法来操纵无法访问模型结构和参数的大型语言模型的新方法,通过优化通用对抗提示,发现模型的限制和漏洞,从而破坏模型的对齐性,提供诊断工具以评估和增强大型语言模型与人类意图的一致性。
PDF
10 months ago
ACL
预训练模型的权重污染攻击
该研究重点讨论了使用大型预先训练模型的安全风险,提出了一种称为 RIPPLe 的正则化方法和一种称为嵌入手术的初始化方法,以防止称为权重污染的攻击,该攻击可以注入安全漏洞。进一步实验证明该攻击可能性很高,对多种应用都带来了严重威胁。
PDF
4 years ago
Prev
Next