Feb, 2024

用于评估大型语言模型中的保障措施的中文数据集

TL;DR通过引入一个用于评估中文 LLM 安全性的数据集,我们扩展到其他两个场景,用于更好地识别有风险的提示拒绝的假阴性和假阳性示例,并提出了细化的每种风险类型的安全评估标准,为 LLM 响应的有害性进行手动注释和自动评估。我们在五个 LLM 上的实验表明,区域特定风险是最普遍的风险类型,是我们所研究的所有中文 LLM 的主要问题。