自我进化对抗安全优化的大型语言模型

Aug, 2024

自我进化对抗安全优化的大型语言模型

SEAS: Self-Evolving Adversarial Safety Optimization for Large Language Models

Muxi Diao, Rumei Li, Shiyang Liu, Guogang Liao, Jingang Wang...

TL;DR本研究解决了大型语言模型（LLMs）在安全性和防止有害输出方面的挑战，提出了自我进化对抗安全（SEAS）优化框架。通过模型自生成的数据，该框架通过初始化、攻击和对抗优化三个迭代阶段来增强模型的安全性，显著减少对人工测试的依赖，并有效提高LLMs的安全能力。研究表明，经过三次迭代，目标模型的安全性与GPT-4相当，红队模型的攻击成功率显著提升。

Abstract

As Large Language Models (LLMs) continue to advance in capability and influence, ensuring their security and preventing harmful outputs has become crucial. A promising approach to address these concerns involves training models to automatically generate adversarial prompts for red team

发现论文，激发创造

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023

大型语言模型中的对抗攻击与防御：旧与新的威胁

过去十年来，人们对神经网络的鲁棒性进行了广泛的研究，但这个问题依然没有得到很好的解决。在这篇论文中，我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件，同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。最后，我们通过一个最近提出的防御方法进行演示，展示了在没有针对大型语言模型的最佳实践的情况下，过高估计新方法的鲁棒性的容易性。

Oct, 2023

MART：利用多轮自动红队测试提高LLM的安全性

提出了一种名为MART（Multi-round Automatic Red-Teaming）的自动多轮红队方法，通过自动对抗性提示编写和安全响应生成，显著提高了红队的可扩展性和目标大型语言模型的安全性。

Nov, 2023

警示：通过红队测试全面评估大型语言模型的安全性的综合基准

应用ALERT基准评估安全性，通过对大规模语言模型进行对抗测试，识别漏洞，改进并提高语言模型的整体安全性。

Apr, 2024

评估大型语言模型的对抗性鲁棒性：一项实证研究

对大型语言模型的鲁棒性进行了攻击和评估，并在五项不同的文本分类任务上建立了新的鲁棒性基准，研究结果对可靠部署语言模型并推动可信人工智能系统的发展具有重要意义。

May, 2024

garak: 大型语言模型安全探测框架

介绍了一种名为garak的框架，可以发现和识别目标大型语言模型或对话系统中的漏洞，从而为漏洞在不同背景下的构成、LLM部署的对齐和政策讨论等提供了有根据的讨论。

Jun, 2024

紫色团队模型与对抗性防御培训

通过紫色团队与对抗性防御训练（PAD）的引入，以新颖的方式结合红队（攻击）和蓝队（安全训练）技术，我们展示了一种用于保护LLMs的流程，可以主动暴露目标LLM的漏洞并及时适应新兴的安全风险。

Jul, 2024

DART: 深度对抗自动红队针对LLM安全

使用深度对抗自动化红队技术（DART）框架，在目标大型语言模型（LLM）的动态演进过程中，通过红色LLM自动生成对抗性提示，监控全局攻击多样性，并通过主动学习数据选择机制来提高目标LLM的安全性，从而显著降低了目标LLM的安全风险。

Jul, 2024

大型语言模型攻击与防御方法的最新进展

本研究聚焦大型语言模型（LLMs）在安全性和可靠性方面的挑战，分析了现有的脆弱性和威胁模型。通过审查攻击机制和防御策略的现状，本文识别了研究中的空白，并提出了未来的研究方向，以推动LLM安全性的提升。

Sep, 2024

大型语言模型的攻击与防御方法的最新进展

本研究针对大型语言模型（LLMs）所面临的安全性和可靠性问题进行了综述，特别是现有脆弱性和新兴威胁模型。通过分析攻击机制和当前防御策略的优缺点，识别研究空白，并提出未来加强LLM安全性的方向，旨在提升对其安全挑战的理解，促进更稳健的安全措施的发展。

Sep, 2024