BriefGPT.xyz
大模型
Ask
alpha
关键词
information hazards
搜索结果 - 1
大型语言模型中的风险与应对:评估关键威胁类别
本文对大型语言模型(LLMs)中的风险评估问题进行了探讨,并重点研究了奖励模型在感知和分类不同类型风险时面临的挑战,通过使用 Anthropic Red 团队的数据集,对信息风险、恶意用途和歧视 / 仇恨内容等主要风险类别进行了分析,研究结
→
PDF
3 months ago
Prev
Next