Apr, 2023
中国大型语言模型的安全评估
Safety Assessment of Chinese Large Language Models
Hao Sun, Zhexin Zhang, Jiawen Deng, Jiale Cheng, Minlie Huang
TL;DR为了进一步推动大型语言模型的安全部署,我们开发了一个中文 LLM 安全评估基准。我们的基准从八种典型的安全场景和六种更具挑战性的指令攻击等两个方面探索了 LLMs 的综合安全表现,并对 OpenAI GPT 系列和其他知名的中文 LLMs 等共 15 个 LLMs 进行了安全评估并分析了一些有趣的发现,公开发布了 100k 个增强测试用例和 LLMs 生成的响应。