Mar, 2025

JBFuzz:高效且有效地利用模糊测试破解大型语言模型

TL;DR本研究针对大型语言模型在对抗“越狱”攻击时的脆弱性问题,提出了一种新颖的自动化且可扩展的红队技术—JBFuzz。通过设计新型种子提示、轻量级突变引擎和准确评估器,该方法展现出99%的攻击成功率,并显著提高了破解速度,强调了即便在安全对齐后,现有大型语言模型依然容易受到攻击的现状。