BriefGPT.xyz
Ask
alpha
关键词
power-seeking
搜索结果 - 2
人工智能代理的非追求权力的稳定性量化
如果一个 AI 代理在一个设置中被认为是安全的,那么它在一个类似的新设置中也是安全的;我们研究了 AI 对齐的一个核心问题 —— 我们训练和测试模型在一定的环境中,但在部署中需要确保在测试中被认为是安全的模型仍然是安全的;我们的安全概念基于
→
PDF
6 months ago
AI 通过不准确的追求权力存在潜在风险的证据回顾
人工智能的快速发展引发了专家、决策者和世界领袖的担忧,关于越来越先进的人工智能系统可能造成的存在风险,这篇论文通过研究规范游戏、目标误归纳和寻求权力来审查关于人工智能存在风险的证据。该论文发现目前的证据状况令人担忧但不确定,关于存在极端的不
→
PDF
8 months ago
Prev
Next