Oct, 2023

通过全球规模的提示破解竞赛揭示LLM系统的系统性漏洞

TL;DR通过全球 prompt 黑客竞赛,我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击,提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集,并提出了对敌对 prompt 类型的综合分类本体论。