Nov, 2023

SimpleSafetyTests: 大型语言模型中关键安全风险的测试套件

TL;DR开发大型语言模型的快速加速使得开源和开放获取的模型成为 ChatGPT 等专有模型的可行替代。然而,缺乏适当的引导和保障,大型语言模型容易遵循恶意指令、提供不安全建议和生成有害内容,这对企业和开发者来说是一个重大的安全风险。我们引入了 SimpleSafetyTests 作为一套新的测试套件,用于快速系统地鉴定此类重大安全风险。该测试套件包含 100 个测试提示,涵盖了大大多数应用中大型语言模型在五个危害方面应拒绝遵守的内容。我们测试了 11 个受欢迎的开源大型语言模型,并发现其中有几个存在重大的安全弱点。虽然一些大型语言模型没有给出任何不安全的回答,但我们测试的大多数模型在超过 20% 的情况下都会回答不安全,并且在极端情况下有超过 50% 的不安全回答。在系统提示中追加强调安全性的内容能够大大减少不安全回答的发生,但并不能完全阻止。我们建议开发者将此类系统提示作为防范重大安全风险的第一层防线。