TASRA:人工智能对社会规模风险的分类与分析
我们提出了一个综合的 AI 风险分类法,该分类法源自欧盟、美国和中国的八项政府政策以及全球 16 家公司的政策,并在生成式 AI 安全评估中迈出了重要的一步,为建立统一的语言奠定了基础。我们识别出 314 个独特的风险类别,并将其组织成了四层次的分类法。该分类法从最高层次包括系统与运营风险、内容安全风险、社会风险和法律与权利风险。通过提供这个统一的框架,我们旨在通过跨部门的信息共享和风险缓解的最佳实践推动 AI 安全。
Jun, 2024
技术创新和人工智能对社会产生了巨大的益处和威胁。这项研究提出了一个关注人工智能相关地缘政治风险的分类法,共识别出 12 种风险,分为四类:地缘压力、恶意使用、环境、社会和伦理风险以及隐私和信任侵犯。本文结合欧盟 AI 法案进行了政策评估,该法案在 2023 年 3 月通过,有望对减少 AI 风险产生积极的自上而下的影响,但需要进行相应的法规调整以更全面地减轻风险。针对开源模型的法规例外、将 GPAI 模型划分为系统风险的参数设置过高以及专门设计用于军事目的的系统被排除在法规义务之外等问题仍需要未来的行动。
Apr, 2024
本文介绍了一个协作的、以人为中心的人工智能、算法和自动化伤害分类法。我们认为现有的分类法虽然有价值,但可能过于狭窄、不清晰,通常只为从业人员和政府服务,往往忽视了更广大公众的需求。通过借鉴现有分类法和大量有记录的事件,我们提出了一个可以广泛理解和适应各种受众的分类法,同时又具有灵活性、可扩展性和互操作性。通过与专家的反复完善和众包标注测试,我们提出的分类法可以成为民间组织、教育工作者、决策者、产品团队和一般公众的有力工具。通过增进对人工智能和相关技术实际伤害的理解,我们旨在提高认识,赋予非政府组织和个人识别和报告违规行为的能力,推动政策讨论,促进负责任的技术发展和应用。
Jul, 2024
当前人工智能技术缺乏管理长尾风险的系统性讨论,而过多提升其智能和能力可能导致比人类更强大的系统从而带来生存威胁;本文提供了分析人工智能灾难性风险的指南包括如何在今天保持系统的安全、在未来影响人工智能系统安全的策略以及平衡安全和通用性的方法。
Jun, 2022
介绍了通过执行全面的 AI 生命周期治理来降低人工智能风险的最佳方法,定量评估现有模型的风险可以类比于如何评估已经建造的房屋的能源效率或医生根据一系列测试评估整体患者健康状况,本文探讨了这一思路,并讨论了这种方法如何改善 AI 的监管。
Sep, 2022
通过研究先进的人工智能系统,我们指出了即将到来的风险,包括大规模社会伤害和恶意使用,以及人类对自主人工智能系统失去控制的不可逆性。鉴于人工智能的迅速发展,我们提出了人工智能研发和治理的优先事项。
Oct, 2023
提出信任 AI 系统是一个元决策的过程,针对不透明的 AI “黑匣子” 提出了 TAI 的新的分类法,涵盖了解释性,权威性和基础三个关键领域,并建立了十个维度来度量信任。旨在通过这个分类法,从战略决策的角度探索不同的 TAI 方法。
Jun, 2023
本文使用分层复杂系统框架对人工智能(AI)风险进行建模,并从公共和私营领域的领域专家收集调查数据以分类 AI 影响和可能性,结果显示强大的 AI 代理情景有更多不确定性,对 AI 对齐失败和影响寻求行为的关注增加以及对多智能体环境的信心增强。
Nov, 2022
该报告旨在通过梳理先前的分歧并建立一个涵盖概率估计和定量因素的模型,解释了 AI 灾难性风险相关问题及其关系;并讨论了不同类型的人工智能、技术和其先进程度,以及安全研究和失控 / 接管场景等因素的影响。
Jun, 2022