雅典娜:安全自主代理的语言对比学习
通过对基于大语言模型的自主代理的综合调查,本文提出了一个统一框架来概括以往研究,并总结了在社会科学、自然科学和工程领域中应用大语言模型的人工智能代理的各种应用及评估策略。同时,我们还讨论了该领域的挑战和未来方向。
Aug, 2023
利用大型语言模型(LLM)所提供的世界知识和普遍推理能力,我们提出了一种基于线性时态逻辑(LTL)的可查询安全约束模块,用于在协作环境中部署LLM代理,并通过自然语言到时态约束编码、安全违规推理、不安全行为修剪等功能,实现了显式指示禁止行为、评估机器人对限制的理解,并确保其合规性。实验证明我们的系统可以严格遵守安全约束并能很好地适用于复杂的安全约束,具备实际应用潜力。
Sep, 2023
在将大型语言模型整合到社会中时,对一套提示的鲁棒性越来越重要,以确保在高差异环境中保持可靠性。本文提出了ASSERT(自动化安全场景红队演练),包括三种方法:语义对齐增强、目标引导和对抗性知识注入。为了进行鲁棒安全评估,我们将这些方法应用于AI安全关键领域,以算法生成一套涵盖多样的鲁棒性设置的测试提示。我们将提示分为四个安全领域,以对领域如何影响模型性能进行精细分析。尽管现有最先进模型具有专用的安全措施,但我们发现在语义相关场景中,绝对分类准确率存在高达11%的统计学显著性差异,零样本对抗设置中的错误率高达19%的绝对误差,给用户的身体安全带来了担忧。
Oct, 2023
通过评估R-Judge,本研究使用包含162个代理人交互记录、涵盖7个应用类别和10种风险类型的27个关键风险场景的基准测试,对8个常用语言模型进行了全面评估。最佳模型GPT-4在对风险评估得分方面为72.29%,而人类得分为89.38%,显示了提高语言模型对风险意识的潜力。此外,利用风险描述作为环境反馈显著提高了模型的性能,揭示了突出的安全风险反馈的重要性。最终,通过设计有效的安全分析技术和深入的案例研究,有助于判断安全风险并促进未来研究。
Jan, 2024
通过全面考察科学领域的基于大语言模型的智能Agent的漏洞,找出潜在的风险、强调对安全措施的需求,以及提出人工监管、Agent对齐、环境反馈三元框架来缓解风险,还强调了目前保护科学Agent的限制和挑战,并呼吁针对这些问题制定改进模型、鲁棒基准和全面规定。
Feb, 2024
通过定制化的大型语言模型 (LLM) 代理,采用提示工程、启发式推理和检索增强生成的元素,以保持结构化信息,我们提出了一种高效的混合策略,利用LLM进行安全分析和人工智能与人类的协同设计,以提高软件工程和安全工程中的生成式AI的质量要求,并确保人类对生成式AI提供的建议负责,通过图形表述作为系统模型的中间表示,促进了LLM和图形之间的交互,以简化的自动驾驶系统为案例说明了我们的方法。
Apr, 2024
ChatScene使用大型语言模型通过文本指令生成安全关键场景,将其转化为特定代码以实现车辆预测和控制,并验证了其在提高自动驾驶车辆安全性方面的有效性。
May, 2024
利用较小的大语言模型实现有害查询检测和安全响应,通过多任务学习机制融合两个任务到一个模型里,效果在公开的大语言模型上表现相当或超过有害查询检测和安全响应的性能。
May, 2024
本研究解决了大规模语言模型(LLMs)在执行AI代理工作流程中的逻辑推理不足问题。通过引入预训练模型的联盟,每个模型在独立子任务中表现出色,展示了这种方法在增强模型鲁棒性和降低操作成本方面的潜力。研究结果表明,考虑预训练模型的联盟可减少对专门微调的需要,且该方法可扩展至其他使用LLMs的非代理系统。
Aug, 2024
本研究针对AI系统中的安全性问题,特别是在协作环境中,提出了三种新的安全架构框架,以增强AI代理的安全协议。通过对不安全用例进行综合评估,发现这些框架能够显著提升AI代理系统的安全性,降低潜在风险,从而为确保AI技术在实际应用中的负责任使用奠定基础。
Sep, 2024