BriefGPT.xyz
大模型
Ask
alpha
关键词
region-specific risks
搜索结果 - 1
用于评估大型语言模型中的保障措施的中文数据集
通过引入一个用于评估中文 LLM 安全性的数据集,我们扩展到其他两个场景,用于更好地识别有风险的提示拒绝的假阴性和假阳性示例,并提出了细化的每种风险类型的安全评估标准,为 LLM 响应的有害性进行手动注释和自动评估。我们在五个 LLM 上的
→
PDF
4 months ago
Prev
Next