BriefGPT.xyz
Ask
alpha
关键词
dangerous capabilities
搜索结果 - 1
Do-Not-Answer: 评估 LLMs 中的保障措施的数据集
通过开发一个标注的数据集,本文研究了大型语言模型的危险能力评估,并展示了使用 BERT 类别分类器在自动安全评估中能够获得与 GPT-4 相媲美的结果。
PDF
10 months ago
Prev
Next