Oct, 2023

ASSERT:用于评估大型语言模型鲁棒性的自动化安全场景红队测试

TL;DR在将大型语言模型整合到社会中时,对一套提示的鲁棒性越来越重要,以确保在高差异环境中保持可靠性。本文提出了 ASSERT(自动化安全场景红队演练),包括三种方法:语义对齐增强、目标引导和对抗性知识注入。为了进行鲁棒安全评估,我们将这些方法应用于 AI 安全关键领域,以算法生成一套涵盖多样的鲁棒性设置的测试提示。我们将提示分为四个安全领域,以对领域如何影响模型性能进行精细分析。尽管现有最先进模型具有专用的安全措施,但我们发现在语义相关场景中,绝对分类准确率存在高达 11% 的统计学显著性差异,零样本对抗设置中的错误率高达 19% 的绝对误差,给用户的身体安全带来了担忧。