Feb, 2024

使用词替代密码破解专有大型语言模型

TL;DR大型语言模型容易受到称为 Jailbreak 的创新提示的影响,本文提出使用加密技术对越狱提示进行编码,实验结果表明我们提出的越狱方法在 ChatGPT、GPT-4 和 Gemini-Pro 等先进专有模型上的攻击成功率高达 59.42%,此外,我们还讨论了这些模型的过度防御性。