朝向韧性和高效的大型语言模型：效率、性能与对抗鲁棒性比较研究

Aug, 2024

朝向韧性和高效的大型语言模型：效率、性能与对抗鲁棒性比较研究

Towards Resilient and Efficient LLMs: A Comparative Study of Efficiency, Performance, and Adversarial Robustness

Xiaojing Fan, Chunliang Tao

TL;DR本研究解决了大型语言模型（LLMs）在效率和对抗鲁棒性之间的权衡问题，通过设计一个框架比较三种复杂性和效率不同的模型。研究发现，尽管Gated Linear Attention Transformer和MatMul-Free LM在GLUE任务上准确率稍低，但在AdvGLUE任务中展示了更高的效率和鲁棒性，揭示了简化架构在资源有限且对抗攻击环境中具有良好平衡的潜力。

Abstract

With the increasing demand for practical applications of Large Language Models (LLMs), many attention-efficient models have been developed to balance Performance and computational cost. However, the →

发现论文，激发创造

对抗GLUE：一个用于评估语言模型鲁棒性的多任务基准

本文提出Adversarial GLUE（AdvGLUE）——一个新的多任务基准，系统地将14种文本对抗攻击方法应用于GLUE任务，进一步通过人工验证实现可靠注释，揭示了现代大规模语言模型面对各种类型对抗攻击漏洞的严重性，呼吁对更具隐蔽性和语义保持性的新型对抗攻击和新型强鲁棒性语言模型的发展。

Nov, 2021

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023

大型语言模型中的对抗攻击与防御：旧与新的威胁

过去十年来，人们对神经网络的鲁棒性进行了广泛的研究，但这个问题依然没有得到很好的解决。在这篇论文中，我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件，同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。最后，我们通过一个最近提出的防御方法进行演示，展示了在没有针对大型语言模型的最佳实践的情况下，过高估计新方法的鲁棒性的容易性。

Oct, 2023

探索大型语言模型的对抗能力

调查了大型语言模型（LLMs）是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施，实验结果表明，LLMs成功地找到了对抗性扰动，有效地破坏了仇恨言论检测系统，这对依赖LLMs的（半）自主系统与现有系统和安全措施的交互带来了重要挑战。

Feb, 2024

RoCoIns：通过代码风格指导提升大型语言模型的鲁棒性

通过将代码风格的指示替代自然语言指示，本文提供了更精确的指示，并增强了大语言模型的鲁棒性。同时，通过使用干净和对抗样本来构建上下文演示，我们进一步提高了大语言模型的鲁棒性。实验结果表明，我们的方法在八个鲁棒性数据集上持续优于自然语言指令的大语言模型。

Feb, 2024

评估大型语言模型的对抗性鲁棒性：一项实证研究

对大型语言模型的鲁棒性进行了攻击和评估，并在五项不同的文本分类任务上建立了新的鲁棒性基准，研究结果对可靠部署语言模型并推动可信人工智能系统的发展具有重要意义。

May, 2024

大型语言模型哨兵：通过LLM代理推进对抗鲁棒性

我们引入了一种名为LLAMOS的新型防御技术，通过净化输入到目标大型语言模型之前的对抗文本示例，以增强大型语言模型的对抗鲁棒性。我们的方法包括两个主要组成部分：a) 代理指示，可以模拟新的代理进行对抗防御，通过最小限度地更改字符来保持句子的原始含义，并防御攻击；b) 防御指导，提供修改干净或对抗性示例以确保有效防御和目标大型语言模型准确输出的策略。通过在开源和闭源大型语言模型上进行广泛实验，我们的方法可以有效抵御对抗性攻击，从而提高对抗鲁棒性。

May, 2024

研究 LLM 对数学问题的鲁棒性

提出了一种提示框架，通过添加无关的变量生成数学应用问题的对抗性变体，用于改进大型语言模型在数学应用问题中的性能下降问题。实验证明，对抗性训练实例的微调提高了对抗性数学应用问题的性能，并提高了识别相关数据进行推理的能力。然而，大型语言模型在面对对抗性信息时仍然存在困难，导致性能下降。

May, 2024

探索大型语言模型鲁棒性的规模趋势

本文研究了大型语言模型在规模扩展下的鲁棒性，填补了现有对于鲁棒性与模型规模之间关系的研究空白。文章提出了通过对抗性训练来提升模型的鲁棒性这一新方法，并发现更大的模型在这种训练下能显著提升其反应能力，而在缺乏明确防御机制的情况下，则几乎没有规模的益处。这一发现对理解和改进语言模型的安全性具有重要意义。

Jul, 2024

迈向韧性和高效的大型语言模型：效率、性能和对抗鲁棒性的比较研究

本研究解决了大型语言模型（LLMs）在实践应用中的效率与对抗鲁棒性之间的平衡问题。我们设计了一个框架，通过比较三种不同复杂度和效率的模型，揭示了简化架构在效率、性能与对抗鲁棒性之间的潜在平衡。这些发现为在资源受限和对抗攻击抵御能力至关重要的应用提供了有价值的见解。

Aug, 2024