BriefGPT.xyz
大模型
Ask
alpha
关键词
ai safety measures
搜索结果 - 2
人工智能安全:通往末日的攀登?
AI 安全措施可能加剧而非减轻存在风险,对 AI 失败的不可避免性、失败点 AI 系统能力与伤害严重程度的预期相关性以及安全措施在失败前使 AI 系统更强大的倾向等核心假设提出负面预期效用。本文探讨了乐观主义、缓解和整体性三种应对策略,每种
→
PDF
a month ago
大型语言模型中的风险与应对:评估关键威胁类别
本文对大型语言模型(LLMs)中的风险评估问题进行了探讨,并重点研究了奖励模型在感知和分类不同类型风险时面临的挑战,通过使用 Anthropic Red 团队的数据集,对信息风险、恶意用途和歧视 / 仇恨内容等主要风险类别进行了分析,研究结
→
PDF
3 months ago
Prev
Next