Aug, 2023
Do-Not-Answer: 评估 LLMs 中的保障措施的数据集
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs
Yuxia Wang, Haonan Li, Xudong Han, Preslav Nakov, Timothy Baldwin
TL;DR通过开发一个标注的数据集,本文研究了大型语言模型的危险能力评估,并展示了使用 BERT 类别分类器在自动安全评估中能够获得与 GPT-4 相媲美的结果。