Sep, 2023
SafetyBench: 用多项选择题评估大型语言模型的安全性
SafetyBench: Evaluating the Safety of Large Language Models with Multiple Choice Questions
Zhexin Zhang, Leqi Lei, Lindong Wu, Rui Sun, Yongkang Huang...
TL;DR以 SafetyBench 为基础,该研究设计了一个综合评估大型语言模型安全性的基准测试工具,包括 11435 个不同类别的问题,并能够提供两种语言(中文和英文)的评估结果,通过测试发现 GPT-4 在安全性方面相较于其他模型表现突出,但当前大型语言模型的安全性仍有提升空间。