Jun, 2024

利用阿拉伯音译和阿拉伯数字输入赋予 LLM 释放权限

TL;DR这项研究识别了大型语言模型(LLMs)对 “越狱” 攻击的潜在漏洞,特别关注阿拉伯语及其不同形式。我们的调查拓宽了研究范围,探究了阿拉伯语言。我们最初在标准阿拉伯语上测试了 AdvBench 基准测试,发现即使采用前缀注入等提示操纵技术,也无法引发 LLMs 生成不安全内容。然而,当使用阿拉伯语转写和聊天缩写(或阿拉伯注音文字)时,我们发现在 OpenAI GPT-4 和 Anthropic Claude 3 Sonnet 等平台上可以生成不安全内容。我们的发现表明,使用阿拉伯语及其不同形式可能会暴露可能隐藏的信息,从而可能增加越狱攻击的风险。我们假设这种暴露可能是由于模型与特定单词的学习连接,强调需要在所有语言形式中进行更全面的安全培训。