评估危险能力的前沿模型

Mar, 2024

Evaluating Frontier Models for Dangerous Capabilities

Mary Phuong, Matthew Aitchison, Elliot Catt, Sarah Cogan, Alexandre Kaskasoli...

TL;DR通过对 Gemini 1.0 模型进行新的 “危险能力” 评估，我们在先前研究的基础上，为了了解新 AI 系统所带来的风险，必须了解它的能力和无能力。我们的评估涵盖四个方面：（1）说服和欺骗；（2）网络安全；（3）自我扩散；以及（4）自我推理。在我们评估的模型中，我们没有发现强大的危险能力的证据，但我们标记了早期的预警信号。我们的目标是推动危险能力评估的严谨科学，为未来模型做好准备。

Abstract

To understand the risks posed by a new ai system, we must understand what it can and cannot do. Building on prior work, we introduce a programme of new "dangerous capability" evaluations and pilot them on

ai system dangerous capability gemini 1.0 persuasion and deception cyber-security

发现论文，激发创造

极端风险的模型评估

建立通用人工智能系统的当前方法倾向于产生既有益又有害的能力，进一步的人工智能发展可能会导致极端风险的能力，本文解释了为什么模型评估对于解决极端风险至关重要，开发人员必须能够识别危险的能力（通过 “危险能力评估”）以及模型应用其能力进行伤害的倾向（通过 “对齐评估”），这些评估对于使政策制定者和其他利益相关者得到及时警告以及做出关于模型培训、部署和安全的负责任决策变得至关重要。

May, 2023

前沿人工智能规管：管理新兴公共安全风险

前沿 AI 模型的安全性规范与公共安全风险需求有关。建立标准设置流程、注册报告需求以及合规机制是对前沿 AI 模型进行规范的必要步骤。产业自律是重要的第一步，但还需要社会广泛讨论和政府干预以确保规范的制定和遵循。将执法权力授予监管机构和颁发前沿 AI 模型许可制度等选项可实现该目标。本文提出一组初始的安全标准，包括进行部署前的风险评估、外部对模型行为的审查、使用风险评估来指导部署决策以及在部署后监控和响应关于模型能力与应用的新信息。希望本文能为如何平衡公共安全风险与 AI 开发前沿的创新受益的广泛讨论做出贡献。

Jul, 2023

对手可以滥用安全模型的组合

开发者试图评估人工智能系统在发布之前是否会被对手滥用，本研究表明，仅对单个模型进行滥用测试是不充分的，对手可以即使每个单独的模型都是安全的情况下，组合模型进行滥用。研究了两种分解方法：手动分解和自动分解，结果显示对手可以使用模型组合更高频率地创建容易受攻击的代码、不正当图像、用于黑客攻击的 Python 脚本和操纵性推文，推荐加强红队测试以避免单独模型滥用的可能性。

Jun, 2024

AI 基础模型的双重使用危险评估与管理框架

对于先进的 AI 基础模型存在的一个担忧是敌对方可能利用这些模型进行化学、生物、放射性、核能、网络等攻击。本研究提出了一种研究和风险管理的方法，结合了开放基准和闭合红队评估的优势，以评估这些模型的双重用途潜力，并讨论了方法的局限性和缓解措施。

May, 2024

AI 取分策略：语言模型在评估中可以有意地表现不佳

AI 系统的可信能力评估对于确保其安全至关重要并成为 AI 法规的关键组成部分；然而，开发者或 AI 系统本身可能会有压低评估结果的激励，这导致了 “故意在评估中表现较差” 的问题；本文评估了现代语言模型的故意表现较差能力，并发现在特定密码的条件下模型可以隐藏特定能力，进一步表明评估存在安全漏洞，削弱了对于先进 AI 系统开发和部署的重要安全决策的可信度。

Jun, 2024

先进人工智能模型的整体安全和责任评估

高级 AI 模型的安全性和责任评估是研究和实践的一个关键但发展中的领域。该报告总结了 Google DeepMind 在高级 AI 模型的开发中创新并应用了一系列广泛的安全评估方法，并分享了其演变过程中的方法以及从中得出的教训。

Apr, 2024

变革性 AI 风险建模 (MTAIR) 项目 -- 摘要报告

该报告旨在通过梳理先前的分歧并建立一个涵盖概率估计和定量因素的模型，解释了 AI 灾难性风险相关问题及其关系；并讨论了不同类型的人工智能、技术和其先进程度，以及安全研究和失控 / 接管场景等因素的影响。

Jun, 2022

前沿人工智能发展的负责报道

减轻前沿 AI 系统的风险需要及时可靠的信息。这些开发和部署前沿系统的组织可以通过向政府、工业界和公民社会中的相关方报告安全关键信息来提高对前沿系统带来的新兴风险的可见性。有了这些信息，开发者可以在风险管理方面做出更明智的决策，而决策者则可以设计更有针对性和鲁棒性的监管基础设施。我们概述了负责任的报告的关键特征，并提出了在实践中实施这些机制的方法。

Apr, 2024

探讨高水平人工智能的差异化风险和控制问题

本文使用分层复杂系统框架对人工智能（AI）风险进行建模，并从公共和私营领域的领域专家收集调查数据以分类 AI 影响和可能性，结果显示强大的 AI 代理情景有更多不确定性，对 AI 对齐失败和影响寻求行为的关注增加以及对多智能体环境的信心增强。

Nov, 2022

前沿 AI 伦理：预测和评估生成智能带来的社会影响

分析和讨论生成智能系统的科学成就、对社会的潜在影响以及对个体提出的规范问题，着重关注多模态大型语言模型在复杂的人工智能系统中以无监督的方式执行行动的可能性。

Apr, 2024