多智能体协作攻击：通过辩论研究大规模语言模型协作中的对抗攻击

Jun, 2024

多智能体协作攻击：通过辩论研究大规模语言模型协作中的对抗攻击

MultiAgent Collaboration Attack: Investigating Adversarial Attacks in Large Language Model Collaborations via Debate

Alfonso Amayuelas, Xianjun Yang, Antonis Antoniades, Wenyue Hua, Liangming Pan...

TL;DR评估模型网络在对抗影响下通过辩论进行合作时的行为，探索推理时间方法生成更令人信服的论点，并评估基于提示的缓解作为一种防御策略的潜力。

Abstract

large language models (LLMs) have shown exceptional results on current benchmarks when working individually. The advancement in their capabilities, along with a reduction in parameter size and inference times, has facilitated the use of these models as agents, enabling interactions amo

large language models collaborative use model collaboration adversary influence inference-time methods

发现论文，激发创造

多代理辩论对抗对抗攻击

通过多代理辩论和嵌入式聚类，我们研究了现代语言模型在对抗性攻击和多代理环境下的表现，并发现多代理辩论可以减少模型的有害性，并改善对不同类型攻击主题的抵抗能力。

Jan, 2024

探索大型语言模型的对抗能力

调查了大型语言模型（LLMs）是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施，实验结果表明，LLMs 成功地找到了对抗性扰动，有效地破坏了仇恨言论检测系统，这对依赖 LLMs 的（半）自主系统与现有系统和安全措施的交互带来了重要挑战。

Feb, 2024

多智能体协作：发挥智能 LLM 代理的力量

本文提出了一种通过多智能体系统来增强大型语言模型（LLMs）能力的新框架，并通过人工智能领域的案例研究展示了这一框架的实用性和多样性。

Jun, 2023

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023

通过多智能体辩论提高语言模型的事实性和推理能力

该论文介绍了一种新方法，即通过多个语言模型实例的反复辩论和推理过程，以达成一个共同的最终答案，从而改善语言响应的表现，特别是在数学和策略推理方面，改善了已有模型中一些常见问题，如虚假答案和幻觉现象，并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。

May, 2023

我们来谈谈：探索竞争 LLM 代理商的自发合作

最近的研究发现，由大型语言模型（LLMs）驱动的代理人具有模拟人类行为和社会动态的能力。我们通过三个案例研究揭示，即使在竞争环境中，LLM 代理人也能够自发地建立合作关系。这一发现不仅展示了 LLM 代理人模仿人类社会中竞争与合作的能力，而且验证了计算社会科学的一个有前途的愿景。具体来说，它表明 LLM 代理人可以用来模拟人类社会交互，包括自发的合作，从而为社会现象提供洞察力。

Feb, 2024

评估大型语言模型的对抗性鲁棒性：一项实证研究

对大型语言模型的鲁棒性进行了攻击和评估，并在五项不同的文本分类任务上建立了新的鲁棒性基准，研究结果对可靠部署语言模型并推动可信人工智能系统的发展具有重要意义。

May, 2024

通过多智能体同行评审协作实现大型语言模型的推理

通过多模型协同合作策略，模拟学术同行评审过程的多个代理人独立构建解决方案，相互审查并分配评审置信度，最终通过反复修订得到优于现有方法的结果，在多个推理任务中展示出卓越的准确性，并在数学推理中体现了对评审置信度整合的有效性，为模仿人类的多代理协同过程提供了有前途的方向。

Nov, 2023

大型语言模型中的对抗攻击与防御：旧与新的威胁

过去十年来，人们对神经网络的鲁棒性进行了广泛的研究，但这个问题依然没有得到很好的解决。在这篇论文中，我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件，同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。最后，我们通过一个最近提出的防御方法进行演示，展示了在没有针对大型语言模型的最佳实践的情况下，过高估计新方法的鲁棒性的容易性。

Oct, 2023

大型语言模型在与人类辩论的局限性

当前的研究论文测试了大型语言模型（LLMs）的可行性，作为人工代理人参与社会学实验中的对话活动，揭示了 LLMs 在辩论中的限制，以及其对人类的影响和能力。

Feb, 2024