Jun, 2024

SORRY-Bench: 大型语言模型安全拒绝行为系统评估

TL;DR评估大型语言模型识别和拒绝不安全用户请求的能力对于安全和符合政策的应用至关重要,SORRY-Bench 是我们提出的基准测试方法,改善了现有方法的三个局限,包括对不安全主题的细致分类、考虑语言特征和格式的偏差以及设计高效的自动化安全评估器。