RiskAwareBench:评估基于大语言模型的具身代理的物理风险意识
本研究使用大型语言模型(Large Language Models, LLMs)作为规划师,以完成视觉感知环境中的复杂任务的具有身体接口的代理人。研究提出了LLM-Planner方法进行few-shot planning,同时提出通过物理接口增强LLMs的简单而有效的方法,实验结果表明该方法在ALFRED数据集上能够取得与使用全数据训练的基线模型相当的性能。
Dec, 2022
通过评估R-Judge,本研究使用包含162个代理人交互记录、涵盖7个应用类别和10种风险类型的27个关键风险场景的基准测试,对8个常用语言模型进行了全面评估。最佳模型GPT-4在对风险评估得分方面为72.29%,而人类得分为89.38%,显示了提高语言模型对风险意识的潜力。此外,利用风险描述作为环境反馈显著提高了模型的性能,揭示了突出的安全风险反馈的重要性。最终,通过设计有效的安全分析技术和深入的案例研究,有助于判断安全风险并促进未来研究。
Jan, 2024
利用高保真虚拟环境的最新进展来建立智能化的具有知觉、推理和与物理世界交互能力的实体代理是推动力之一。我们提出了一种名为HAZARD的新的模拟实体评估标准,旨在评估动态情况下实体代理的决策能力。HAZARD包括火灾、洪水和风等三个突发灾害场景,并特别支持使用大语言模型(LLMs)进行常识推理和决策。这个评估标准可以评估自主代理在动态变化的环境中的决策能力,包括强化学习(RL),基于规则的方法和基于搜索的方法。作为使用大语言模型解决这一挑战的第一步,我们进一步开发了一个基于LLM的代理并对其在解决这些困难任务方面的优势和挑战进行了深入分析。HAZARD可在此https网址处获得。
Jan, 2024
通过全面考察科学领域的基于大语言模型的智能Agent的漏洞,找出潜在的风险、强调对安全措施的需求,以及提出人工监管、Agent对齐、环境反馈三元框架来缓解风险,还强调了目前保护科学Agent的限制和挑战,并呼吁针对这些问题制定改进模型、鲁棒基准和全面规定。
Feb, 2024
通过检查最近在大型语言模型(LLMs)和视觉语言模型(VLMs)与机器人技术交叉领域的工作,我们展示了将大型语言模型和视觉语言模型整合到机器人应用中所涉及的稳健性和安全性的关键问题。我们定义并提供了几种可能的对抗性攻击的例子,并在三个重要的机器人框架上进行了实验,这些机器人框架集成了一个语言模型,包括KnowNo VIMA和Instruct2Act,以评估它们对这些攻击的易感性。我们的实证研究结果显示出LLM/VLM-robot集成系统的一个显著的脆弱性:简单的对抗性攻击可以显著削弱LLM/VLM-robot集成系统的有效性。特别是,在提示性攻击下,我们的数据显示出了平均性能下降21.2%,而在感知攻击下更为严重,达到30.2%。这些结果强调了确保部署先进的LLM/VLM基础机器人系统的安全性和可靠性的关键需求。
Feb, 2024
通过测量和可视化大型语言模型(LLMs)的安全景观,我们发现了一种称为“安全盆地”的普遍现象,该现象在流行的开源LLMs模型参数空间中观察到。我们提出了一种新的安全度量标准,VISAGE安全度量标准,用于通过探测安全景观来衡量LLMs微调的安全性,并通过可视化的安全景观了解LLMs通过微调如何降低其安全性。LLMs的安全景观还突出了系统提示在保护模型中的关键作用,并且这种保护通过其在安全盆地内的扰动变体进行传递。我们的安全景观研究的观察结果为未来关于LLMs安全性的工作提供了新的见解。
May, 2024
通过将大型语言模型与具体机器人控制提示和具体知识图谱相结合,我们提出了一种新的集成方法,以增强服务机器人的安全框架,确保其行动与安全协议持续保持一致,并在各种情境下提供更安全的操作实践,从而促进安全的人机互动。
May, 2024
人机交互(HRI)和人工智能(AI)社区提出了大型语言模型(LLMs)作为机器人任务的一个有前景的资源,然而最近的研究引发了对LLMs在真实世界机器人实验和应用中产生歧视性结果和不安全行为的担忧。为了解决这些问题,我们在几个高评级的LLMs上进行了基于HRI的歧视和安全评估,发现它们在遇到具有多样性的受保护身份特征(例如种族、性别、残疾状况、国籍、宗教和交叉特征)的人时,产生了与直接歧视结果一致的偏见输出;此外,我们在自由语言输入环境中测试模型,发现它们不能安全行动,生成的回应接受有危险、暴力或非法指令,例如引发事故的错误陈述、夺取人们的移动辅助设备和性侵行为。我们的结果强调了迫切需要系统、常规和全面的风险评估和保证,以改善结果,并确保LLMs只在安全、有效和公正的情况下在机器人上运行。数据和代码将提供。
Jun, 2024
本研究揭示了大型语言模型在具身智能开发中存在的严重后门安全威胁,并提出了一种新方法,通过污染少量上下文示例,攻击者能够秘密地破坏黑箱LLM的上下文环境,生成逻辑上合理但具有上下文依赖缺陷的程序。这些缺陷程序在特定触发条件下会引发意外行为,研究结果显示该方法在攻击真实世界的自主驾驶系统上具有潜在影响。
Aug, 2024
本研究解决了具身AI系统中移动机器人在导航任务中面临的安全管理挑战,尤其是对恶意指令的脆弱性。提出的SafeEmbodAI框架通过安全提示、状态管理和安全验证机制,显著提升了机器人对复杂语言指令的理解和多模态数据的推理能力。实验结果显示,该框架在复杂环境中相较于基线在攻击场景下的表现提升了267%,确保了具身AI系统的安全性。
Sep, 2024