Nov, 2022

语言模型攻击技术

TL;DR使用PromptInject对GPT-3进行了安全性评估,发现针对goal hijacking和prompt leaking的手工输入攻击可以利用GPT-3的随机性,导致潜在的风险