多代理辩论对抗对抗攻击

Jan, 2024

Combating Adversarial Attacks with Multi-Agent Debate

Steffi Chern, Zhen Fan, Andy Liu

TL;DR通过多代理辩论和嵌入式聚类，我们研究了现代语言模型在对抗性攻击和多代理环境下的表现，并发现多代理辩论可以减少模型的有害性，并改善对不同类型攻击主题的抵抗能力。

Abstract

While state-of-the-art language models have achieved impressive results, they remain susceptible to inference-time adversarial attacks, such as adversarial prompts generated by red teams arXiv:2209.07858. One app

language models adversarial attacks multi-agent debate red team attacks adversarial prompt content classification

发现论文，激发创造

多智能体协作攻击：通过辩论研究大规模语言模型协作中的对抗攻击

评估模型网络在对抗影响下通过辩论进行合作时的行为，探索推理时间方法生成更令人信服的论点，并评估基于提示的缓解作为一种防御策略的潜力。

Jun, 2024

通过多智能体辩论提高语言模型的事实性和推理能力

该论文介绍了一种新方法，即通过多个语言模型实例的反复辩论和推理过程，以达成一个共同的最终答案，从而改善语言响应的表现，特别是在数学和策略推理方面，改善了已有模型中一些常见问题，如虚假答案和幻觉现象，并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。

May, 2023

我们疯了吗？医学问答中语言模型的多智体辩论基准测试

最近针对医疗方面问题回答的大型语言模型 (LLMs) 取得了重要进展，然而确保生成代理提供准确可靠的答案仍然是一个持续挑战。在这个背景下，多代理辩论 (MAD) 作为提高 LLMs 真实性的主要策略已经出现。本研究提供了医学问答中多代理辩论策略的全面基准以及开源实现，探索了各种策略的有效利用，包括成本、时间和准确性之间的权衡。我们基于这些研究结果提供了基于代理一致性的新辩论刺激策略，在医学问答任务上胜过先前发表的策略。

Nov, 2023

ChatEval：基于多智能体辩论的 LLM 评估器改进

通过多代理辩论框架，构建了一个名为 ChatEval 的多代理裁判团队，用于自主讨论和评估不同模型在开放性问题和传统自然语言生成任务中生成响应的质量，分析结果表明 ChatEval 不仅仅提供文本评分，还提供了模拟人类评估过程以进行可靠评估。

Aug, 2023

通过多智能体辩论促进大型语言模型的发散性思维

本研究提出了多智能体辩论 (MAD) 框架，该框架利用自身分歧思维来解决大型语言模型 (LLMs) 的陈腐思维问题和推理任务不足的问题。实验结果表明，MAD 框架在常识机器翻译和反直觉算术推理等任务上表现良好，且需要较高水平的辩论和调整控制矩阵来保证其效果。

May, 2023

辩论：基于魔鬼辩护的评估与文本评价

提出了一种基于多智能体评分系统的自然语言生成（NLG）评估框架 DEBATE，通过引入反对者的概念，解决了 LLM 智能体回答中的偏见问题，从而在 NLG 评估中显著超越了现有的方法。

May, 2024

JAB: 联合对抗提示和信念增强

通过对黑盒目标模型进行敌对激励并通过迭代反馈循环使用信念增强，我们引入了一个联合框架来同时探测和改进语言模型的安全性和鲁棒性。通过使用自动红队测试方法探测目标模型，以及使用信念增强器生成指令以提高目标模型对敌对探测的鲁棒性，该框架实现了对目标模型的鲁棒性的提升。在实验中，我们证明了这样一个框架可以减少动态交互和静态基准数据集评估模型的有毒内容生成。

Nov, 2023

RedAgent: 上下文感知的自主语言代理对抗大型语言模型

最近，先进的大型语言模型（LLMs）如 GPT-4 已经被集成到许多实际应用中，如 Code Copilot。这些应用极大地扩展了 LLMs 的攻击面，使它们面临各种威胁。其中，通过越狱提示导致毒性反应的越狱攻击引发了严重的安全担忧。为了识别这些威胁，越来越多的红方测试方法通过制作越狱提示来模拟潜在的对抗场景，以测试目标 LLM。然而，现有的红方测试方法没有考虑不同场景下 LLM 的独特漏洞，导致很难调整越狱提示以发现特定上下文中的漏洞。同时，这些方法仅使用少量变异操作来改进越狱模板，缺乏适应不同场景的自动化和可伸缩性。为了实现上下文感知和高效的红方测试，我们将现有的攻击抽象成一个连贯的概念，称为 “越狱策略”，并提出了一个名为 RedAgent 的多智能体 LLM 系统，利用这些策略生成上下文感知的越狱提示。通过在额外的内存缓冲区中自我反思上下文反馈，RedAgent 不断学习如何利用这些策略在特定上下文中实现有效的越狱。大量的实验证明我们的系统可以用仅五个查询越狱大部分黑盒 LLMs，将现有红方测试方法的效率提高了两倍。此外，RedAgent 可以更高效地越狱定制化的 LLM 应用。通过针对 GPTs 上的应用生成上下文感知的越狱提示，我们仅使用每个漏洞两个查询就发现了这些实际应用的 60 个严重漏洞。我们已经报告了所发现的所有问题，并与 OpenAI 和 Meta 沟通修复了这些漏洞。

Jul, 2024

会话蕴含任务的对抗攻击与防御

在这项研究中，我们将对抗性攻击结果视为模型的一个新（未见过的）领域，并将防御问题转化为如何提高模型在这个新领域的鲁棒性。我们关注会话蕴含任务，其中多轮自然语言对话是前提，通过对变换模型进行微调以预测给定对话的假设是真还是假。我们采用同义词交换作为攻击方法，并实施了一些微调策略，并提出了嵌入扰动损失作为提高模型鲁棒性的方法。最后，通过讨论自然语言处理中现实世界的对抗攻击，展示了我们工作的重要性。

May, 2024

通过辩论实现人工智能安全

通过采用自我对弈的零和辩论游戏的方式来训练智能体，以此作为人类判断的替代，来实现 AI 系统对于复杂任务的精准输出，并讨论了辩论模型的理论和实践方面的问题。

May, 2018