BriefGPT.xyz
大模型
Ask
alpha
关键词
prompt leaking
搜索结果 - 2
MM
PLeak:大规模语言模型应用中的提示泄露攻击
设计了一种新颖的闭盒信息泄露攻击框架 PLeak,用于优化对抗查询,以便当攻击者将其发送到目标 LLM 应用程序时,其响应会泄露自己的系统提示。通过逐步优化系统提示的每个令牌的对抗性查询,有效地泄露系统提示,并显著优于手动策划查询和修改自现
→
PDF
2 months ago
语言模型攻击技术
使用 PromptInject 对 GPT-3 进行了安全性评估,发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性,导致潜在的风险
PDF
2 years ago
Prev
Next