令牌化的重要性!通过挑战其令牌化降低大型语言模型的性能
基于大型语言模型 (LLMs) 的语言理解和生成能力,我们提出了 LLM-Attack,旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异,能够生成通常有效、自然,并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。
Nov, 2023
使用五种不同的大型语言模型(LLMs)进行情感分类任务时,针对三种不同类型的对抗攻击,该研究分析了攻击的有效性、效率和实用性,发现词级攻击更有效,而字符级攻击则更实用且所需的改动和查询数量较少,因此在开发对抗性防御策略以训练更具鲁棒性的 LLMs 用于智能文本分类应用时需考虑这些差异。
Jun, 2024
介绍了大型语言模型(LLMs)在移动健康感知等人类中心任务中的使用,并通过案例研究证明了目前流行的 LLMs 对于时间数据的分词处理存在错误,提出了解决方案如轻量级嵌入层调整和多模态适配器来弥合模态差异。该论文强调了语言模型在处理输入细微差别时无法产生有意义的输出。
Sep, 2023
大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域,本文调查了该领域的相关研究,并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。
Oct, 2023
调查了大型语言模型(LLMs)是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施,实验结果表明,LLMs 成功地找到了对抗性扰动,有效地破坏了仇恨言论检测系统,这对依赖 LLMs 的(半)自主系统与现有系统和安全措施的交互带来了重要挑战。
Feb, 2024
为了理解大型语言模型对敌对问题生成过程的影响,我们使用语言模型和检索模型丰富写作指导,提出新的衡量指标和激励机制,以提出好的、具有挑战性的问题,并展示了一个新的敌对问题数据集。
Jan, 2024
大型语言模型存在分词问题,导致对错别字、长度差异和标记内部结构的忽视。本研究通过探究复杂问题解决、标记结构探测和对错别字的抵抗力来系统地调查这些挑战及其对大型语言模型的影响,并展示模型参数缩放与子词规范化对解决这些问题的作用。
Jun, 2024
大型语言模型(LLMs)在医疗应用中的整合为医学诊断、治疗建议和患者护理方面的进步提供了有希望的前景,然而,LLMs 对敌对攻击的易受攻击性构成了重大威胁,可能导致敏感医疗环境中的不良结果。本研究调查了 LLMs 在三个医学任务中面临的两种类型的敌对攻击的易受攻击性。利用真实的患者数据,我们证明了开源和专有的 LLMs 在多个任务中容易受到操纵。这项研究进一步揭示了针对特定领域任务的模型微调需要更多的敌对数据以实施有效的攻击,特别是对于更强大的模型而言。我们发现,虽然整合了敌对数据不会明显降低医学基准测试中的整体模型性能,但它确实会导致微调模型权重的明显变化,这表明检测和对抗模型攻击的潜在途径。这项研究强调了在医疗应用中确保 LLMs 安全有效部署的迫切需求,需要健全的安全措施和防御机制来保护 LLMs。
Jun, 2024
对大型语言模型的鲁棒性进行了攻击和评估,并在五项不同的文本分类任务上建立了新的鲁棒性基准,研究结果对可靠部署语言模型并推动可信人工智能系统的发展具有重要意义。
May, 2024
过去十年来,人们对神经网络的鲁棒性进行了广泛的研究,但这个问题依然没有得到很好的解决。在这篇论文中,我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件,同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。最后,我们通过一个最近提出的防御方法进行演示,展示了在没有针对大型语言模型的最佳实践的情况下,过高估计新方法的鲁棒性的容易性。
Oct, 2023