Jun, 2024

揭示 GPT-4o 的安全性:使用越狱攻击进行的实证研究

TL;DR该论文首次对 GPT-4o 进行了严格的安全评估,发现 GPT-4o 在文本模式破解方面具有增强的安全性,同时引入的音频模式为对 GPT-4o 的破解攻击开辟了新的攻击向量,并且现有的黑盒多模态破解攻击方法在 GPT-4o 和 GPT-4V 上效果不佳,这些发现对 GPT-4o 的安全影响提供了重要见解,并强调了在大型模型中需要强大的对齐保护措施。