AI 评估与红队行动的安全港湾

Mar, 2024

A Safe Harbor for AI Evaluation and Red Teaming

Shayne Longpre, Sayash Kapoor, Kevin Klyman, Ashwin Ramaswami, Rishi Bommasani...

TL;DR对生成式人工智能系统进行独立评估和红队测试对于识别风险至关重要，但主要人工智能公司用于阻止模型滥用的服务条款和执法策略对善意安全评估存在不利因素，因此一些研究人员担心进行此类研究或公开发现将导致账户暂停或法律报复。我们提议重要人工智能开发者承诺提供法律和技术的 “安全港”，为公共利益的安全研究提供保障，免于账户暂停或法律报复的威胁。我们相信这些承诺是朝着更具包容性和顺畅的社区合作努力，解决生成式人工智能的风险问题所需的必要步骤。

Abstract

independent evaluation and red teaming are critical for identifying the risks posed by →

generative ai systems independent evaluation red teaming risks research access

发现论文，激发创造

生成 AI 的红队测试：是银弹还是安全娱乐？

通过对 AI 工业界最近的红队活动案例和相关研究文献的调查，我们发现先前的 AI 红队方法和实践在多个方面存在差异，包括活动目的、评估对象、实施方式和所得出的决策。鉴于我们的发现，我们认为虽然红队可能是一个有价值的广义概念，用于描述一系列旨在改善 Generative AI 模型行为的活动和态度，但宣称红队是解决一切可能风险的万灵药则属于安全戏剧。为了更好地评估生成 AI，我们将我们的建议综合成一个问题库，旨在指导和规范未来的 AI 红队实践。

Jan, 2024

先进人工智能模型的整体安全和责任评估

高级 AI 模型的安全性和责任评估是研究和实践的一个关键但发展中的领域。该报告总结了 Google DeepMind 在高级 AI 模型的开发中创新并应用了一系列广泛的安全评估方法，并分享了其演变过程中的方法以及从中得出的教训。

Apr, 2024

有害 AI 言论的责任在哪里？

基于大量信息训练的生成式人工智能（特别是以文本为基础的 “基本模型”）在产生问题性言论方面可能面临不同责任体系的风险。因此需要对这些模型进行 “红队测试”，以识别和缓解潜在的问题性言论。本研究考察了三种责任体系，并将其与普遍的红队测试模型行为进行关联：诽谤、涉及犯罪行为的言论以及错误死亡。研究发现，对于生成式言论模型的 Section 230 免责分析或下游责任分析密切关联于算法设计的技术细节。文章主张在这些情况下 AI 不应被绝对地免除责任。法院和决策者在评估这些问题时应慎重考虑所造成的技术设计激励措施并需同时应对平台算法的复杂性。

Aug, 2023

保障海上自治系统中人工智能的红队框架

通过使用一种多部分检查表的框架，我们展示了如何高效地评估海上自主系统的人工智能安全，并揭示其中的多个漏洞，从中毒到对抗性补丁攻击。通过系统化的人工智能红队行动，我们可以防止与提高对使命关键人工智能的接受和依赖性相应的严重事件。

Dec, 2023

生成型 AI 系统的社会技术安全评估

生成型人工智能系统的安全评估需要考虑风险，本文提出了一个三层框架来评估这些风险，结合体系安全原则并考虑人类互动和系统影响作为额外的评估层，同时分析现有的安全评估存在的几个问题并提出解决办法，以此实现生成型人工智能系统的全面安全评估。

Oct, 2023

肯定安全：高风险人工智能的风险管理方法

AI 专家建议在高风险的人工智能系统开发或部署之前，公司应该要求展示这些系统的安全性。本文旨在扩展这个想法并探讨其对风险管理的影响。我们认为开发或部署高风险人工智能系统的实体应该提供积极安全的证据，并确保其活动将风险保持在可接受的阈值以下。

Apr, 2024

生成模型内容审查的安全性与公正性

本研究提出了一个理论框架来对文本到图像生成技术进行负责任的内容管理，其中包括了定义并区分了安全、公平和度量公平的概念，并且详细列举了可能出现的伤害案例，并提供了如何量化所定义的危害的实证演示，用数据驱动的内容管理决策来实现量化危害的操作。

Jun, 2023

人工智能安全：一代新的生成式人工智能和控制系统安全的后裔

泛人工智能与人类的互动达到了前所未有的规模，为巨大的积极影响提供了新途径，但也引发了广泛关注，担忧其对个体和社会可能造成的伤害。本文中，我们认为，对这些人工智能技术的有意义的安全保证只能通过思考人工智能输出与人类行为之间形成的反馈循环如何推动交互走向不同结果来实现。为此，我们设想了从控制论到人类中心的人工智能安全的快速增长能力之间的高价值契机，为未来几十年的人类中心人工智能安全奠定了新基础。

May, 2024

构建科学研究中生成型人工智能的道德准则

发展分析和缓解策略，提供了一个初始框架来理解模型限制、尊重隐私、保密和版权、避免抄袭和政策违规、确保应用程序提供整体利益，并透明可重现地使用人工智能，以保护研究的完整性。

Jan, 2024

AI 安全：必要，但不足且可能存在问题

人工智能安全性的炒作对于推进社会公益的其他人工智能研究途径产生冲突，因为 AI 安全性与透明度等社会公益相关概念存在微妙而棘手的关系。此外，AI 安全性辩论也可能使一些监管工作朝着不太理想的方向发展，同时给会造成结构性伤害的 AI 提供一种贴上安全标签的机会。

Mar, 2024