极端风险的模型评估

May, 2023

Model evaluation for extreme risks

Toby Shevlane, Sebastian Farquhar, Ben Garfinkel, Mary Phuong, Jess Whittlestone...

TL;DR建立通用人工智能系统的当前方法倾向于产生既有益又有害的能力，进一步的人工智能发展可能会导致极端风险的能力，本文解释了为什么模型评估对于解决极端风险至关重要，开发人员必须能够识别危险的能力（通过 “危险能力评估”）以及模型应用其能力进行伤害的倾向（通过 “对齐评估”），这些评估对于使政策制定者和其他利益相关者得到及时警告以及做出关于模型培训、部署和安全的负责任决策变得至关重要。

Abstract

Current approaches to building general-purpose ai systems tend to produce systems with both beneficial and harmful capabilities. Further progress in AI development could lead to capabilities that pose extreme risks

general-purpose ai extreme risks model evaluation dangerous capability evaluations alignment evaluations

发现论文，激发创造

评估危险能力的前沿模型

通过对 Gemini 1.0 模型进行新的 “危险能力” 评估，我们在先前研究的基础上，为了了解新 AI 系统所带来的风险，必须了解它的能力和无能力。我们的评估涵盖四个方面：（1）说服和欺骗；（2）网络安全；（3）自我扩散；以及（4）自我推理。在我们评估的模型中，我们没有发现强大的危险能力的证据，但我们标记了早期的预警信号。我们的目标是推动危险能力评估的严谨科学，为未来模型做好准备。

Mar, 2024

先进人工智能模型的整体安全和责任评估

高级 AI 模型的安全性和责任评估是研究和实践的一个关键但发展中的领域。该报告总结了 Google DeepMind 在高级 AI 模型的开发中创新并应用了一系列广泛的安全评估方法，并分享了其演变过程中的方法以及从中得出的教训。

Apr, 2024

前沿人工智能规管：管理新兴公共安全风险

前沿 AI 模型的安全性规范与公共安全风险需求有关。建立标准设置流程、注册报告需求以及合规机制是对前沿 AI 模型进行规范的必要步骤。产业自律是重要的第一步，但还需要社会广泛讨论和政府干预以确保规范的制定和遵循。将执法权力授予监管机构和颁发前沿 AI 模型许可制度等选项可实现该目标。本文提出一组初始的安全标准，包括进行部署前的风险评估、外部对模型行为的审查、使用风险评估来指导部署决策以及在部署后监控和响应关于模型能力与应用的新信息。希望本文能为如何平衡公共安全风险与 AI 开发前沿的创新受益的广泛讨论做出贡献。

Jul, 2023

基于对抗攻击风险选择模型

本研究提出了一种基于统计学建模的评估方法，可以量化敌对攻击导致的危害风险，并演示了该方法的应用结果胜过传统的度量方法。

Jan, 2023

探讨高水平人工智能的差异化风险和控制问题

本文使用分层复杂系统框架对人工智能（AI）风险进行建模，并从公共和私营领域的领域专家收集调查数据以分类 AI 影响和可能性，结果显示强大的 AI 代理情景有更多不确定性，对 AI 对齐失败和影响寻求行为的关注增加以及对多智能体环境的信心增强。

Nov, 2022

保护社会免受 AI 误用：何时限制 AI 能力是必要的？

人工智能（AI）系统将越来越常被用于造成伤害，为了防止对 AI 的一些错误使用，本文提出了一种减少 AI 误用的干预分类法，重点在于对于误用所需的特定步骤（误用链）进行干预以及确定是否需要此干预。

Mar, 2023

AI 基础模型的双重使用危险评估与管理框架

对于先进的 AI 基础模型存在的一个担忧是敌对方可能利用这些模型进行化学、生物、放射性、核能、网络等攻击。本研究提出了一种研究和风险管理的方法，结合了开放基准和闭合红队评估的优势，以评估这些模型的双重用途潜力，并讨论了方法的局限性和缓解措施。

May, 2024

评估先进人工智能带来的社会规模风险的国际联盟

建议建立国际负责风险评估的 AI 联盟，以监管和规范快速发展的高级人工智能系统，缓解社会规模的风险，并推动负责任的扩展政策和协调的评估风险反应。

Oct, 2023

AI 研究的 X 风险分析

当前人工智能技术缺乏管理长尾风险的系统性讨论，而过多提升其智能和能力可能导致比人类更强大的系统从而带来生存威胁；本文提供了分析人工智能灾难性风险的指南包括如何在今天保持系统的安全、在未来影响人工智能系统安全的策略以及平衡安全和通用性的方法。

Jun, 2022

控制科学中人工智能潜在滥用的风险

该研究旨在提高科学领域中人工智能滥用的危险，并呼吁在该领域中负责任地开发和使用人工智能。通过列举科学环境中人工智能带来的风险，并通过化学科学领域的实际滥用示例来展示这些风险，高亮显示了有效的风险管理策略的需求。为此，我们提出了一个名为 SciGuard 的系统来控制科学中人工智能模型的滥用风险，并提出了一个名为 SciMT-Safety 的红队基准来评估不同系统的安全性。我们的提议在评估中显示出最小的有害影响，并且在良性测试中不会影响性能。最后，我们强调了跨学科和合作努力来确保在科学中安全和道德地使用人工智能模型的需求。我们希望我们的研究能够激发研究人员、从业者、决策者和公众之间就科学中的人工智能的道德使用展开有建设性的讨论，以最大化利益，最小化滥用风险。

Dec, 2023