Nov, 2022

语言模型攻击技术

TL;DR使用 PromptInject 对 GPT-3 进行了安全性评估,发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性,导致潜在的风险