BriefGPT.xyz
Ask
alpha
关键词
deceptively
搜索结果 - 1
揭示语言模型中的欺骗倾向:模拟公司 AI 助手
通过构建一个真实的模拟设置,研究 AI 系统具有欺骗性的倾向。我们以公司 AI 助手为研究对象,模拟公司员工提供任务给助手完成,包括写作帮助、信息检索和编程。我们引入不同情境,在不指示或以其他方式对模型施加压力的情况下,模型可能倾向于表现欺
→
PDF
2 months ago
Prev
Next