Oct, 2023

SC-Safety:大语言模型中的多轮开放性问题对抗安全基准

TL;DR引入了一个多轮对抗基准 (SuperCLUE-Safety),通过人机对抗交互和对话的方式,系统评估了中文大型语言模型 (Large language models) 的安全性,发现闭源模型在安全性方面优于开源模型,中国发布的模型与 GPT-3.5-turbo 等模型具有可比较的安全水平,某些参数为 6B-13B 的较小模型在安全性方面同样具有有效竞争力,这项基准和发现为模型选择提供了指导。