Apr, 2023

中国大型语言模型的安全评估

TL;DR为了进一步推动大型语言模型的安全部署,我们开发了一个中文LLM安全评估基准。我们的基准从八种典型的安全场景和六种更具挑战性的指令攻击等两个方面探索了LLMs的综合安全表现,并对OpenAI GPT系列和其他知名的中文LLMs等共15个LLMs进行了安全评估并分析了一些有趣的发现,公开发布了100k个增强测试用例和LLMs生成的响应。