保护AI代理:开发和分析安全架构
在野外安全自主性的先决条件是进行安全的测试。我们提出了一个基于互联网的安全自主智能体测试框架,通过上下文敏感的监视器对智能体的行为进行审计,强制实施严格的安全边界来阻止不安全的测试,并将可疑行为进行排名和记录以供人工审查。我们设计了一个灵活的基础安全监视器来监控现有LLM智能体,并使用对抗性模拟智能体来测试其识别和停止不安全情况的能力。然后,我们将安全监视器应用于AutoGPT的一系列现实世界测试中,识别了一些存在的限制和挑战,这些将是随着自主智能体的能力增强,创建安全的野外测试时将面临的问题。
Nov, 2023
通过评估R-Judge,本研究使用包含162个代理人交互记录、涵盖7个应用类别和10种风险类型的27个关键风险场景的基准测试,对8个常用语言模型进行了全面评估。最佳模型GPT-4在对风险评估得分方面为72.29%,而人类得分为89.38%,显示了提高语言模型对风险意识的潜力。此外,利用风险描述作为环境反馈显著提高了模型的性能,揭示了突出的安全风险反馈的重要性。最终,通过设计有效的安全分析技术和深入的案例研究,有助于判断安全风险并促进未来研究。
Jan, 2024
通过全面考察科学领域的基于大语言模型的智能Agent的漏洞,找出潜在的风险、强调对安全措施的需求,以及提出人工监管、Agent对齐、环境反馈三元框架来缓解风险,还强调了目前保护科学Agent的限制和挑战,并呼吁针对这些问题制定改进模型、鲁棒基准和全面规定。
Feb, 2024
通过定制化的大型语言模型 (LLM) 代理,采用提示工程、启发式推理和检索增强生成的元素,以保持结构化信息,我们提出了一种高效的混合策略,利用LLM进行安全分析和人工智能与人类的协同设计,以提高软件工程和安全工程中的生成式AI的质量要求,并确保人类对生成式AI提供的建议负责,通过图形表述作为系统模型的中间表示,促进了LLM和图形之间的交互,以简化的自动驾驶系统为案例说明了我们的方法。
Apr, 2024
通过世界模型、安全规范和验证器的相互作用,提出了一系列保证安全的人工智能(AI)方法,旨在为AI系统提供高保证的量化安全保证,并描述了核心技术挑战和潜在解决方案。
May, 2024
泛人工智能与人类的互动达到了前所未有的规模,为巨大的积极影响提供了新途径,但也引发了广泛关注,担忧其对个体和社会可能造成的伤害。本文中,我们认为,对这些人工智能技术的有意义的安全保证只能通过思考人工智能输出与人类行为之间形成的反馈循环如何推动交互走向不同结果来实现。为此,我们设想了从控制论到人类中心的人工智能安全的快速增长能力之间的高价值契机,为未来几十年的人类中心人工智能安全奠定了新基础。
May, 2024
介绍了AI安全和AI安全漏洞之间的相互作用,讨论了定义上的不一致和缺乏共识,并引入一个统一的参考框架来澄清AI安全和AI安全之间的差异和相互作用,旨在促进不同社区之间的共识和有效合作。
May, 2024
本研究针对大语言模型在自主性和安全性方面的不足,提出了雅典娜框架,利用语言对比学习来增强代理的安全性,确保其在执行任务时避免风险。同时,我们创建了一个包含80个工具包和180个场景的安全评估基准,以评估LLM代理的安全推理能力。实验结果表明,该框架显著提高了代理的安全性。
Aug, 2024
本文针对快速发展的AI技术,尤其是生成式AI背景下人工智能安全这一亟待解决的问题,提出了一个创新的架构框架,从可信的AI、负责任的AI和安全的AI三个视角进行分析与理解。研究通过对当前AI安全领域的文献回顾及实际案例分析,阐明了识别与应对AI安全问题的有效机制和方法,旨在提升公众对数字化转型的信任。
Aug, 2024
本研究解决了具身AI系统中移动机器人在导航任务中面临的安全管理挑战,尤其是对恶意指令的脆弱性。提出的SafeEmbodAI框架通过安全提示、状态管理和安全验证机制,显著提升了机器人对复杂语言指令的理解和多模态数据的推理能力。实验结果显示,该框架在复杂环境中相较于基线在攻击场景下的表现提升了267%,确保了具身AI系统的安全性。
Sep, 2024