基于LLM的多智能体社群中操控性知识的泛滥传播

Jul, 2024

基于LLM的多智能体社群中操控性知识的泛滥传播

Flooding Spread of Manipulated Knowledge in LLM-Based Multi-Agent Communities

Tianjie Ju, Yiting Wang, Xinbei Ma, Pengzhou Cheng, Haodong Zhao...

TL;DR通过构建详细的威胁模型和真实环境模拟，本文提出了一种新的两阶段攻击方法，包括说服力注入和操纵性知识注入，系统地探索了操纵性知识（例如假设性和有毒的知识）在基于大规模语言模型的多主体系统中的传播潜力。通过广泛的实验，展示了攻击方法能够成功诱导基于大规模语言模型的智能体传播假设性和有毒的知识，并且这种操纵可以在互动结束后继续影响智能体，进一步揭示了基于大规模语言模型的多主体系统中存在的重大安全风险，强调了对抗操纵性知识传播的强大防御措施的迫切性。

Abstract

The rapid adoption of large language models (LLMs) in multi-agent systems has highlighted their impressive capabilities in various applications, such as collaborative problem-solving and autonomous negotiation. H

发现论文，激发创造

一滴墨汁或可引发百万思考：大型语言模型中虚假信息扩散

本研究探究了虚假信息在大语言模型中的传播机制及其对模型响应的影响，结果表明：虚假信息会通过语义扩散传播并污染相关记忆；大语言模型更容易受到权威偏见的影响；在上下文注入下，大语言模型对虚假信息更敏感。这些结果表明有必要研究新的抵御虚假信息的算法以应对其全局影响，并研究新的对齐算法以使大语言模型遵循内在的人类价值观而非表面模式。

May, 2023

LLMs杀死了脚本小子：大语言模型支持的代理如何改变网络威胁测试的现状

本研究探索了大型语言模型在威胁推理、工具信息生成和自动化网络攻击方面的潜力，讨论了LLM在支持特定威胁相关行动和决策方面的手动与自动化探索，以及对威胁网络潜在影响和使用LLM加速威胁行为能力的伦理考量，对诱导可操作反应的提示设计进行了评估和启发，并提出了探索LLM在更复杂网络、高级漏洞和提示敏感性方面的未解问题。

Oct, 2023

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023

恶魔天才：深入探究基于LLM的智能体的安全性

通过对大型语言模型（LLMs）进行安全评估，揭示了LLM-based agents面临的挑战、安全漏洞以及对未来研究的启示。

Nov, 2023

大型语言模型攻击的比较调查

通过综述各种在大型语言模型上攻击的形式及机制，以及其潜在影响和当前的防御策略，该论文探讨了大型语言模型的安全性和脆弱性方面的问题。研究主题包括旨在操纵模型输出的对抗性攻击、影响模型训练的数据污染，以及与训练数据利用相关的隐私问题。论文还探讨了不同攻击方法的有效性、大型语言模型对这些攻击的弹性以及对模型完整性和用户信任的影响。通过研究最新的研究成果，提供对大型语言模型的脆弱性和防御机制的深入了解，旨在引起人工智能社区的关注，并激发切实解决这些风险的方法。

Mar, 2024

研究多轮LLM交互的提示泄露效应和黑盒防御

对大型语言模型（LLMs）中的提示泄漏进行了研究，发现在多轮LLM交互中存在漏洞和泄漏，并提出了防御策略。

Apr, 2024

BadAgent：在LLM代理中插入和激活后门攻击

利用大型语言模型构建智能代理存在潜在的后门攻击风险，即使在可信数据上进行微调也无法防御，这可能是第一项关于带有外部工具权限的大型语言模型代理的研究。

Jun, 2024

在LLM时代的社交工程攻击防御

本研究探讨了大型语言模型（LLMs）作为聊天式社交工程（CSE）攻击的助手和防御者所面临的挑战，开发了一个模拟学术和招聘场景的数据集SEConvo，揭示了LLMs在这些情境中的利用和检测能力，设计了ConvoSentinel以提高检测效果，强化CSE攻击的辨识能力，凸显了在网络安全领域中利用LLMs的需求。

Jun, 2024

我想要自由！大语言模型在社交等级下的反社会行为和说服能力

本研究针对大语言模型（LLM）在多代理环境中相互作用的复杂性，特别是在严格的社会层次结构下的行为模式进行了深入探讨。通过模拟“监狱实验”的情境，发现模型在权力动态下的对话效果不一，并指出了目标设定对说服力的影响以及角色分配如何引发反社会行为。这些发现为大语言模型代理的发展及其社会影响的讨论提供了重要见解。

Oct, 2024

提示感染：多代理系统中的LLM到LLM提示注入

本研究解决了多代理系统中LLM间提示注入的安全漏洞问题，指出现有的研究主要集中在单代理LLM的脆弱性上。提出的提示感染攻击类似计算机病毒，通过自我复制在互联代理间传播，可能导致数据盗窃、诈骗和系统大规模中断。研究结果表明，然而结合LLM标记的防护机制，可以显著减缓感染传播，提高多代理系统的安全性。

Oct, 2024