L-AutoDA: 利用大型语言模型进行自动化的基于决策的对抗攻击

Jan, 2024

L-AutoDA: 利用大型语言模型进行自动化的基于决策的对抗攻击

L-AutoDA: Leveraging Large Language Models for Automated Decision-based Adversarial Attacks

Ping Guo, Fei Liu, Xi Lin, Qingchuan Zhao, Qingfu Zhang

TL;DR在机器学习快速发展的领域中，对抗性攻击对模型的稳健性和安全性构成了重大挑战。本研究引入了 L-AutoDA（基于大型语言模型的自动化决策攻击），这是一种新颖的方法，利用大型语言模型的生成能力来自动设计这些攻击。通过与大型语言模型在进化框架中的迭代交互，L-AutoDA 能够高效地自动设计具有竞争力的攻击算法，减少了人力成本。我们在 CIFAR-10 数据集上展示了 L-AutoDA 的有效性，表现出较基准方法在成功率和计算效率方面的显著提升。我们的发现突显了语言模型作为对抗性攻击生成工具的潜力，并为开发稳健的人工智能系统提供了新的途径。

Abstract

In the rapidly evolving field of machine learning, adversarial attacks present a significant challenge to model robustness and security. D

machine learning adversarial attacks model robustness automated decision-based adversarial attacks language models

发现论文，激发创造

AutoDAN: 大型语言模型的自动可解释的对抗攻击

安全性对齐、大型语言模型（LLMs）、手动越狱攻击、对抗性攻击、可解释对抗性攻击。

Oct, 2023

Auto-Learning：两个预训练模型的对抗学习用于自然语言生成

在这篇论文中，介绍了一种名为 Auto-Learning 的新的敌对学习方法，它可以改善任何自然语言生成模型的性能，而无需添加任何数据集，该方法适用于所有 Transformer 类的自回归语言建模。

Feb, 2023

利用大型语言模型赋能自动驾驶：一个安全的角度

自动驾驶面临重要的挑战：公众信任问题和长尾未知驾驶场景的安全担忧。为解决这个问题，本文提倡在自动驾驶系统中整合大型语言模型，充分利用其强大的常识知识、推理能力和人机交互能力，将其作为智能决策者来提升整体自动驾驶性能和安全性。本文展示了两个案例研究的结果，证实了我们方法的有效性。此外，我们还讨论了将大型语言模型整合到其他自动驾驶软件组件 (包括感知、预测和仿真) 的潜在优势。尽管在案例研究中面临挑战，但大型语言模型的整合对于加强自动驾驶的安全性和性能具有潜在的希望和益处。

Nov, 2023

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023

探索大型语言模型的对抗能力

调查了大型语言模型（LLMs）是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施，实验结果表明，LLMs 成功地找到了对抗性扰动，有效地破坏了仇恨言论检测系统，这对依赖 LLMs 的（半）自主系统与现有系统和安全措施的交互带来了重要挑战。

Feb, 2024

评估大型语言模型的对抗性鲁棒性：一项实证研究

对大型语言模型的鲁棒性进行了攻击和评估，并在五项不同的文本分类任务上建立了新的鲁棒性基准，研究结果对可靠部署语言模型并推动可信人工智能系统的发展具有重要意义。

May, 2024

自动驾驶的大型语言模型调查

自动驾驶技术是改变交通运输和城市流动性的催化剂，从基于规则的系统过渡到基于数据驱动的策略。该研究论文系统地回顾了大型语言模型在自动驾驶领域的应用，并评估了当前技术进展、主要挑战和未来方向。

Nov, 2023

DALA：一种基于分布感知的 LoRA 方法对抗预训练语言模型

通过考虑对抗样本的分布变化以提高检测方法下的攻击效果，我们提出了一种分布感知的 DALA 对抗攻击方法，并设计了一个评价指标 NASR，结合 ASR 和检测，验证 DALA 生成的对抗样本在 BERT 和 LLaMA2-7b 模型上的攻击效果。

Nov, 2023

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

LaMDA：面向对话应用的语言模型

LaMDA 是一种专门用于对话的基于 Transformer 的神经语言模型，其具有高达 137B 的参数，并使用公共对话数据和 Web 文本预训练。它具有先进的优化技术，能够解决安全性和事实基础等关键挑战，以及能够在教育和内容推荐领域发挥积极作用。

Jan, 2022