探索大型语言模型的对抗能力
大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域,本文调查了该领域的相关研究,并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。
Oct, 2023
使用五种不同的大型语言模型(LLMs)进行情感分类任务时,针对三种不同类型的对抗攻击,该研究分析了攻击的有效性、效率和实用性,发现词级攻击更有效,而字符级攻击则更实用且所需的改动和查询数量较少,因此在开发对抗性防御策略以训练更具鲁棒性的 LLMs 用于智能文本分类应用时需考虑这些差异。
Jun, 2024
对大型语言模型的鲁棒性进行了攻击和评估,并在五项不同的文本分类任务上建立了新的鲁棒性基准,研究结果对可靠部署语言模型并推动可信人工智能系统的发展具有重要意义。
May, 2024
通过综述各种在大型语言模型上攻击的形式及机制,以及其潜在影响和当前的防御策略,该论文探讨了大型语言模型的安全性和脆弱性方面的问题。研究主题包括旨在操纵模型输出的对抗性攻击、影响模型训练的数据污染,以及与训练数据利用相关的隐私问题。论文还探讨了不同攻击方法的有效性、大型语言模型对这些攻击的弹性以及对模型完整性和用户信任的影响。通过研究最新的研究成果,提供对大型语言模型的脆弱性和防御机制的深入了解,旨在引起人工智能社区的关注,并激发切实解决这些风险的方法。
Mar, 2024
大型语言模型(LLMs)在医疗应用中的整合为医学诊断、治疗建议和患者护理方面的进步提供了有希望的前景,然而,LLMs 对敌对攻击的易受攻击性构成了重大威胁,可能导致敏感医疗环境中的不良结果。本研究调查了 LLMs 在三个医学任务中面临的两种类型的敌对攻击的易受攻击性。利用真实的患者数据,我们证明了开源和专有的 LLMs 在多个任务中容易受到操纵。这项研究进一步揭示了针对特定领域任务的模型微调需要更多的敌对数据以实施有效的攻击,特别是对于更强大的模型而言。我们发现,虽然整合了敌对数据不会明显降低医学基准测试中的整体模型性能,但它确实会导致微调模型权重的明显变化,这表明检测和对抗模型攻击的潜在途径。这项研究强调了在医疗应用中确保 LLMs 安全有效部署的迫切需求,需要健全的安全措施和防御机制来保护 LLMs。
Jun, 2024
基于大型语言模型 (LLMs) 的语言理解和生成能力,我们提出了 LLM-Attack,旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异,能够生成通常有效、自然,并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。
Nov, 2023
给出了当前针对大型语言模型(LLMs)的隐私攻击的全面分析,并对其进行了分类,同时提供了用于对抗这些隐私攻击的重要防御策略,并指出了 LLMs 发展中可能出现的新的隐私问题和未来的研究方向。
Oct, 2023
我们引入了一种名为 LLAMOS 的新型防御技术,通过净化输入到目标大型语言模型之前的对抗文本示例,以增强大型语言模型的对抗鲁棒性。我们的方法包括两个主要组成部分:a) 代理指示,可以模拟新的代理进行对抗防御,通过最小限度地更改字符来保持句子的原始含义,并防御攻击;b) 防御指导,提供修改干净或对抗性示例以确保有效防御和目标大型语言模型准确输出的策略。通过在开源和闭源大型语言模型上进行广泛实验,我们的方法可以有效抵御对抗性攻击,从而提高对抗鲁棒性。
May, 2024
近期在隐私研究中,大型语言模型在推断真实世界在线文本中的个人数据方面已经达到接近人类水平的性能。在存在不断增长的模型能力的同时,现有的文本匿名化方法目前无法满足监管要求和对抗威胁。这引发了一个问题,即个人如何能够有效地在分享在线文本时保护自己的个人数据。本研究分两步回答这个问题:首先,我们提出了一个新的环境,在对抗性大型语言模型推理的情况下评估匿名化性能,从而在纠正以前的指标缺陷的同时,实现对匿名化性能的自然度量。然后,我们提出了基于大型语言模型的对抗性匿名化框架,利用大型语言模型的强大推理能力来指导我们的匿名化过程。在我们的实验评估中,我们展示了在真实世界和合成在线文本中,对抗性匿名化在结果效用和隐私方面均优于目前的工业级匿名化工具。
Feb, 2024