保障海上自治系统中人工智能的红队框架
通过对 AI 工业界最近的红队活动案例和相关研究文献的调查,我们发现先前的 AI 红队方法和实践在多个方面存在差异,包括活动目的、评估对象、实施方式和所得出的决策。鉴于我们的发现,我们认为虽然红队可能是一个有价值的广义概念,用于描述一系列旨在改善 Generative AI 模型行为的活动和态度,但宣称红队是解决一切可能风险的万灵药则属于安全戏剧。为了更好地评估生成 AI,我们将我们的建议综合成一个问题库,旨在指导和规范未来的 AI 红队实践。
Jan, 2024
该研究提供了一个网络安全风险分析框架来评估带有人工智能组件的系统,以满足欧盟人工智能法、NIST 人工智能风险管理框架以及相关规范的要求,并使用自动驾驶系统的示例进行说明。
Jan, 2024
人工智能(AI)带来了巨大的好处,但也存在双重用途潜力、偏见和意外行为的风险。本文回顾了不透明且无法控制的 AI 系统的新兴问题,并提出了一个称为紫色团队合作的综合框架,以开发可靠和负责任的 AI。紫色团队合作将对抗性漏洞探测(红队)与安全解决方案(蓝队)相结合,同时优先考虑伦理和社会利益。它从 AI 安全研究中出现,通过设计来主动管理风险。本文追溯了红队、蓝队和紫色团队向紫色团队合作的演变,并讨论了应用紫色技术来解决生物技术中 AI 的生物安全风险。额外的部分回顾了跨法律、伦理、网络安全、宏观战略和行业最佳实践的关键观点,这些对通过技术和社会综合考虑使 AI 负责任的操作至关重要。紫色团队合作既提供哲学又提供方法,引导 AI 的发展方向朝向社会福祉。在有良心和智慧的指导下,人工智能的超凡能力可以丰富人类。但是,如果没有足够的预防措施,风险可能是灾难性的。紫色团队合作旨在为共同福利赋予道德技术的力量。
Aug, 2023
物理机器人近距离工作,科技安全的威胁引起人们担忧。现今缺少专业人士来保护这些系统,因此需要相应的课程来开发和集成。该课程包括七个自包含的模块,旨在对普及的机器人系统进行人工智能安全威胁防御与训练。
Feb, 2023
对生成式人工智能系统进行独立评估和红队测试对于识别风险至关重要,但主要人工智能公司用于阻止模型滥用的服务条款和执法策略对善意安全评估存在不利因素,因此一些研究人员担心进行此类研究或公开发现将导致账户暂停或法律报复。我们提议重要人工智能开发者承诺提供法律和技术的 “安全港”,为公共利益的安全研究提供保障,免于账户暂停或法律报复的威胁。我们相信这些承诺是朝着更具包容性和顺畅的社区合作努力,解决生成式人工智能的风险问题所需的必要步骤。
Mar, 2024
生成模型和红队的攻击策略研究与语言模型的功能能力密切相关,调查还涉及到多模式攻击等新领域,希望这个调查能够为研究领域提供系统的视角并开启新的研究领域。
Mar, 2024
人工智能在网络安全领域的潜力以及人工智能与人类合作的风险因素、伦理和法律问题等方面进行了深入探讨,强调了将人类专家的专业知识与人工智能的计算能力相结合以改善网络防御的重要性。
Sep, 2023
在网络安全的广阔领域中,从防御到进攻的转变对保护数字基础设施至关重要,本研究探讨了将人工智能(AI)应用于进攻性网络安全的整合,特别是通过开发一款自主 AI 代理程序 ReaperAI,用于模拟和执行网络攻击,利用大型语言模型(LLMs)如 GPT-4 的能力,ReaperAI 展示了自主识别、利用和分析安全漏洞的潜力,同时还提出了 AI 在网络安全中的道德和操作挑战,以及未来的研究方向。
May, 2024