Aug, 2023

Do-Not-Answer: 评估 LLMs 中的保障措施的数据集

TL;DR通过开发一个标注的数据集,本文研究了大型语言模型的危险能力评估,并展示了使用 BERT 类别分类器在自动安全评估中能够获得与 GPT-4 相媲美的结果。