极端风险的模型评估
通过对 Gemini 1.0 模型进行新的 “危险能力” 评估,我们在先前研究的基础上,为了了解新 AI 系统所带来的风险,必须了解它的能力和无能力。我们的评估涵盖四个方面:(1)说服和欺骗;(2)网络安全;(3)自我扩散;以及(4)自我推理。在我们评估的模型中,我们没有发现强大的危险能力的证据,但我们标记了早期的预警信号。我们的目标是推动危险能力评估的严谨科学,为未来模型做好准备。
Mar, 2024
高级 AI 模型的安全性和责任评估是研究和实践的一个关键但发展中的领域。该报告总结了 Google DeepMind 在高级 AI 模型的开发中创新并应用了一系列广泛的安全评估方法,并分享了其演变过程中的方法以及从中得出的教训。
Apr, 2024
前沿 AI 模型的安全性规范与公共安全风险需求有关。建立标准设置流程、注册报告需求以及合规机制是对前沿 AI 模型进行规范的必要步骤。产业自律是重要的第一步,但还需要社会广泛讨论和政府干预以确保规范的制定和遵循。将执法权力授予监管机构和颁发前沿 AI 模型许可制度等选项可实现该目标。本文提出一组初始的安全标准,包括进行部署前的风险评估、外部对模型行为的审查、使用风险评估来指导部署决策以及在部署后监控和响应关于模型能力与应用的新信息。希望本文能为如何平衡公共安全风险与 AI 开发前沿的创新受益的广泛讨论做出贡献。
Jul, 2023
本文使用分层复杂系统框架对人工智能(AI)风险进行建模,并从公共和私营领域的领域专家收集调查数据以分类 AI 影响和可能性,结果显示强大的 AI 代理情景有更多不确定性,对 AI 对齐失败和影响寻求行为的关注增加以及对多智能体环境的信心增强。
Nov, 2022
人工智能(AI)系统将越来越常被用于造成伤害,为了防止对 AI 的一些错误使用,本文提出了一种减少 AI 误用的干预分类法,重点在于对于误用所需的特定步骤(误用链)进行干预以及确定是否需要此干预。
Mar, 2023
对于先进的 AI 基础模型存在的一个担忧是敌对方可能利用这些模型进行化学、生物、放射性、核能、网络等攻击。本研究提出了一种研究和风险管理的方法,结合了开放基准和闭合红队评估的优势,以评估这些模型的双重用途潜力,并讨论了方法的局限性和缓解措施。
May, 2024
建议建立国际负责风险评估的 AI 联盟,以监管和规范快速发展的高级人工智能系统,缓解社会规模的风险,并推动负责任的扩展政策和协调的评估风险反应。
Oct, 2023
当前人工智能技术缺乏管理长尾风险的系统性讨论,而过多提升其智能和能力可能导致比人类更强大的系统从而带来生存威胁;本文提供了分析人工智能灾难性风险的指南包括如何在今天保持系统的安全、在未来影响人工智能系统安全的策略以及平衡安全和通用性的方法。
Jun, 2022
该研究旨在提高科学领域中人工智能滥用的危险,并呼吁在该领域中负责任地开发和使用人工智能。通过列举科学环境中人工智能带来的风险,并通过化学科学领域的实际滥用示例来展示这些风险,高亮显示了有效的风险管理策略的需求。为此,我们提出了一个名为 SciGuard 的系统来控制科学中人工智能模型的滥用风险,并提出了一个名为 SciMT-Safety 的红队基准来评估不同系统的安全性。我们的提议在评估中显示出最小的有害影响,并且在良性测试中不会影响性能。最后,我们强调了跨学科和合作努力来确保在科学中安全和道德地使用人工智能模型的需求。我们希望我们的研究能够激发研究人员、从业者、决策者和公众之间就科学中的人工智能的道德使用展开有建设性的讨论,以最大化利益,最小化滥用风险。
Dec, 2023