Sep, 2023

SafetyBench: 用多项选择题评估大型语言模型的安全性

TL;DR以 SafetyBench 为基础,该研究设计了一个综合评估大型语言模型安全性的基准测试工具,包括 11435 个不同类别的问题,并能够提供两种语言(中文和英文)的评估结果,通过测试发现 GPT-4 在安全性方面相较于其他模型表现突出,但当前大型语言模型的安全性仍有提升空间。