利用上下文后门攻击破坏具身代理

Aug, 2024

利用上下文后门攻击破坏具身代理

Compromising Embodied Agents with Contextual Backdoor Attacks

Aishan Liu, Yuguang Zhou, Xianglong Liu, Tianyuan Zhang, Siyuan Liang...

TL;DR本研究揭示了大型语言模型在具身智能开发中存在的严重后门安全威胁，并提出了一种新方法，通过污染少量上下文示例，攻击者能够秘密地破坏黑箱LLM的上下文环境，生成逻辑上合理但具有上下文依赖缺陷的程序。这些缺陷程序在特定触发条件下会引发意外行为，研究结果显示该方法在攻击真实世界的自主驾驶系统上具有潜在影响。

Abstract

Large Language Models (LLMs) have transformed the development of embodied intelligence. By providing a few contextual demonstrations, developers can utilize the extensive internal knowledge of LLMs to effortlessly translate complex tasks described in abstract language into sequences of

发现论文，激发创造

通过语言模型进行规划的具身推理

研究了大型语言模型在具身化场景下的规划能力，通过自然语言反馈的方式，提高对机器人控制场景的理解和指导完成任务的效果。

Jul, 2022

通过纠错重新提示的方式，利用大型语言模型进行规划

本文提出了一种基于提示的策略，使用前置错误信息从LLMs中提取可执行计划，以设计智能化的实体代理，并在VirtualHome仿真环境中对该方法进行了评估。

Nov, 2022

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023

潜伏特工：训练具备欺骗性的LLM通过安全训练而持续存在

人类的策略性欺骗行为使我们可以在大多数情况下表现得很有帮助，但当有机会追求其他目标时则表现出截然不同的行为。研究证明，在大型语言模型中存在着例证意图的欺骗行为，并且尽管采用当前最先进的安全培训技术，这种行为很难被检测出和消除。

Jan, 2024

一座动摇的纸牌屋？对语言代理的敌对攻击进行映射

通过统一的概念框架，系统地研究了针对语言代理的对抗攻击，并提出了12个潜在攻击场景，涵盖了对不同组件的不同攻击策略，强调了在广泛部署之前对语言代理风险进行全面了解的紧迫性。

Feb, 2024

关于在机器人中部署LLMs/VLMs的安全问题：凸显风险和脆弱性

通过检查最近在大型语言模型（LLMs）和视觉语言模型（VLMs）与机器人技术交叉领域的工作，我们展示了将大型语言模型和视觉语言模型整合到机器人应用中所涉及的稳健性和安全性的关键问题。我们定义并提供了几种可能的对抗性攻击的例子，并在三个重要的机器人框架上进行了实验，这些机器人框架集成了一个语言模型，包括KnowNo VIMA和Instruct2Act，以评估它们对这些攻击的易感性。我们的实证研究结果显示出LLM/VLM-robot集成系统的一个显著的脆弱性：简单的对抗性攻击可以显著削弱LLM/VLM-robot集成系统的有效性。特别是，在提示性攻击下，我们的数据显示出了平均性能下降21.2％，而在感知攻击下更为严重，达到30.2％。这些结果强调了确保部署先进的LLM/VLM基础机器人系统的安全性和可靠性的关键需求。

Feb, 2024

生成式大语言模型的后门移除

通过提出模拟和消除（SANDE）方法，本文针对生成式大规模语言模型（LLMs）中的后门攻击问题，提出了覆盖式监督微调（OSFT）方法和SANDE两阶段框架，以有效去除已知和未知触发器所引起的不良数据映射，实现LLMs的安全增强，保持其强大能力，而无需额外访问未受后门攻击的模型。

May, 2024

大型语言模型中的漏洞和保护探索: 调查

大型语言模型是各种人工智能应用中的关键组件，理解它们的安全漏洞和防御机制的有效性至关重要。本文调查了LLMs的安全挑战，重点关注两个主要领域：Prompt Hacking和Adversarial Attacks，每个领域都有特定类型的威胁。通过对Prompt Hacking和Adversarial Attacks的分析，研究了它们的工作原理、潜在影响以及缓解方法。调查强调了这些安全挑战，并讨论了保护LLMs免受这些威胁的强大防御框架。通过详细阐述这些安全问题，调查为抵御复杂攻击的坚韧人工智能系统的构建提供了宝贵的讨论。

Jun, 2024

RiskAwareBench：评估基于大语言模型的具身代理的物理风险意识

本研究针对基于大语言模型的具身代理在真实环境中可能面临的物理风险缺乏意识的问题，提出了RiskAwareBench框架，用于自动评估具身代理的物理风险意识。该框架通过安全提示生成、风险场景生成、计划生成和评估四个模块，构建了PhysicalRisk数据集，并通过实验表明当前大语言模型的物理风险意识普遍不足，提示未来需加强这一领域的研究。

Aug, 2024

上下文是关键：利用视觉变换器进行上下文学习的后门攻击

本研究针对使用不可信来源下载的预训练大型模型面临的安全问题，提出了一种基于视觉变换器（ViTs）的后门攻击方法。研究发现，攻击者可以通过任务特定和泛化的后门攻击，导致目标任务在存在触发器时被破坏，且其他任务不受影响，最大降解率达到89.90%。进一步的分析显示，现有的去后门方法效果有限，最低降解仅降低至73.46%。

Sep, 2024