多代理辩论对抗对抗攻击
评估模型网络在对抗影响下通过辩论进行合作时的行为,探索推理时间方法生成更令人信服的论点,并评估基于提示的缓解作为一种防御策略的潜力。
Jun, 2024
该论文介绍了一种新方法,即通过多个语言模型实例的反复辩论和推理过程,以达成一个共同的最终答案,从而改善语言响应的表现,特别是在数学和策略推理方面,改善了已有模型中一些常见问题,如虚假答案和幻觉现象,并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。
May, 2023
最近针对医疗方面问题回答的大型语言模型 (LLMs) 取得了重要进展,然而确保生成代理提供准确可靠的答案仍然是一个持续挑战。在这个背景下,多代理辩论 (MAD) 作为提高 LLMs 真实性的主要策略已经出现。本研究提供了医学问答中多代理辩论策略的全面基准以及开源实现,探索了各种策略的有效利用,包括成本、时间和准确性之间的权衡。我们基于这些研究结果提供了基于代理一致性的新辩论刺激策略,在医学问答任务上胜过先前发表的策略。
Nov, 2023
通过多代理辩论框架,构建了一个名为 ChatEval 的多代理裁判团队,用于自主讨论和评估不同模型在开放性问题和传统自然语言生成任务中生成响应的质量,分析结果表明 ChatEval 不仅仅提供文本评分,还提供了模拟人类评估过程以进行可靠评估。
Aug, 2023
本研究提出了多智能体辩论 (MAD) 框架,该框架利用自身分歧思维来解决大型语言模型 (LLMs) 的陈腐思维问题和推理任务不足的问题。实验结果表明,MAD 框架在常识机器翻译和反直觉算术推理等任务上表现良好,且需要较高水平的辩论和调整控制矩阵来保证其效果。
May, 2023
提出了一种基于多智能体评分系统的自然语言生成(NLG)评估框架 DEBATE,通过引入反对者的概念,解决了 LLM 智能体回答中的偏见问题,从而在 NLG 评估中显著超越了现有的方法。
May, 2024
通过对黑盒目标模型进行敌对激励并通过迭代反馈循环使用信念增强,我们引入了一个联合框架来同时探测和改进语言模型的安全性和鲁棒性。通过使用自动红队测试方法探测目标模型,以及使用信念增强器生成指令以提高目标模型对敌对探测的鲁棒性,该框架实现了对目标模型的鲁棒性的提升。在实验中,我们证明了这样一个框架可以减少动态交互和静态基准数据集评估模型的有毒内容生成。
Nov, 2023
在这项研究中,我们将对抗性攻击结果视为模型的一个新(未见过的)领域,并将防御问题转化为如何提高模型在这个新领域的鲁棒性。我们关注会话蕴含任务,其中多轮自然语言对话是前提,通过对变换模型进行微调以预测给定对话的假设是真还是假。我们采用同义词交换作为攻击方法,并实施了一些微调策略,并提出了嵌入扰动损失作为提高模型鲁棒性的方法。最后,通过讨论自然语言处理中现实世界的对抗攻击,展示了我们工作的重要性。
May, 2024
通过综合手动和自动方法生成攻击提示的综合方法,提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示,并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性;在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性,并发布了一系列攻击提示数据集(SAP)以便更多大型语言模型的安全评估和增强。
Oct, 2023