BriefGPT.xyz
Ask
alpha
关键词
enterprise tasks
搜索结果 - 1
对于事实性、毒性、偏见和幻觉倾向进行的 Llama2、Mistral、Gemma 和 GPT 的基准测试
本研究主要介绍了用于评估大型语言模型在企业任务中安全性的十四个新数据集。我们采用了一种方法来评估模型的安全性,即其遵循指令和输出事实、无偏见、立足点的内容的能力。在此研究中,我们使用 OpenAI GPT 作为对比点,因为它在所有安全性层面
→
PDF
3 months ago
Prev
Next