dangerous capabilities | BriefGPT

关键词dangerous capabilities

搜索结果 - 1

Do-Not-Answer: 评估 LLMs 中的保障措施的数据集
通过开发一个标注的数据集，本文研究了大型语言模型的危险能力评估，并展示了使用 BERT 类别分类器在自动安全评估中能够获得与 GPT-4 相媲美的结果。
PDF10 months ago