Apr, 2024

重新思考以评估语言模型破解

TL;DR提出了三个指标来评估语言模型的越狱,分别是安全违规、信息性和相对真实性,并展示了这些指标与不同恶意用户的目标之间的相关性,通过预处理响应扩展了自然语言生成评估方法来计算这些指标,对来自三个恶意目的数据集和三个越狱系统产生的基准数据集进行了评估,与现有的越狱评估方法相比,实验证明我们的多方面评估方法在平均 F1 得分上提高了 17%,我们的发现促使我们摆脱越狱问题的二元观点,引入更全面的评估来确保语言模型的安全性。