Jun, 2024

揭示GPT-4o的安全性:使用越狱攻击进行的实证研究

TL;DR该论文首次对GPT-4o进行了严格的安全评估,发现GPT-4o在文本模式破解方面具有增强的安全性,同时引入的音频模式为对GPT-4o的破解攻击开辟了新的攻击向量,并且现有的黑盒多模态破解攻击方法在GPT-4o和GPT-4V上效果不佳,这些发现对GPT-4o的安全影响提供了重要见解,并强调了在大型模型中需要强大的对齐保护措施。