BriefGPT.xyz
Apr, 2023
中国大型语言模型的安全评估
Safety Assessment of Chinese Large Language Models
HTML
PDF
Hao Sun, Zhexin Zhang, Jiawen Deng, Jiale Cheng, Minlie Huang
TL;DR
为了进一步推动大型语言模型的安全部署,我们开发了一个中文LLM安全评估基准。我们的基准从八种典型的安全场景和六种更具挑战性的指令攻击等两个方面探索了LLMs的综合安全表现,并对OpenAI GPT系列和其他知名的中文LLMs等共15个LLMs进行了安全评估并分析了一些有趣的发现,公开发布了100k个增强测试用例和LLMs生成的响应。
Abstract
With the rapid popularity of
large language models
such as ChatGPT and GPT-4, a growing amount of attention is paid to their
safety concerns
. These models may generate insulting and discriminatory content, reflec
→