adversarial prompt composition | BriefGPT

关键词adversarial prompt composition

搜索结果 - 1

语言模型攻击技术
使用 PromptInject 对 GPT-3 进行了安全性评估，发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性，导致潜在的风险
PDF2 years ago