针对大语言模型的对抗性鲁棒性和合规性的保障案例开发

Oct, 2024

针对大语言模型的对抗性鲁棒性和合规性的保障案例开发

Developing Assurance Cases for Adversarial Robustness and Regulatory Compliance in LLMs

Tomas Bueno Momcilovic, Dian Balta, Beat Buesser, Giulio Zizzo, Mark Purcell

TL;DR本研究针对大语言模型面临的对抗性攻击和合规性问题，提出了一种开发保障案例的新方法。通过建立多层次框架并动态管理风险，研究展示了如何有效应对模型脆弱性，确保其符合欧洲人工智能法案的要求。该方法的显著发现是，不同的应用场景需要量身定制的策略以保障AI系统的稳健性和合规性。

Abstract

This paper presents an approach to developing assurance cases for Adversarial Robustness and Regulatory Compliance in Large Language Models

发现论文，激发创造

针对对抗引导的 LLM 安全性认证

我们提出了第一个具有可验证安全保证的消除-检查（erase-and-check）框架，以抵御恶意提示。我们通过逐个擦除token并使用安全过滤器检查得到的子序列，将输入提示标记为有害，如果安全过滤器检测到任何子序列或者输入提示本身存在有害的部分。我们的技术能够针对三种攻击模式进行防御，并且在保证处理安全提示的性能的同时，显著提高了在有害提示上的安全保证指标。

Sep, 2023

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023

从微调和量化中提高LLM的脆弱性

大型语言模型在各个领域中得到了广泛应用，但是它们也面临不同类型的攻击，如越狱、提示注入和隐私泄露攻击。本研究探讨了下游任务（如改进性调整和量化）对大型语言模型的脆弱性的影响，并展示了使用外部防护措施以减少脆弱性的实用性。

Apr, 2024

评估大型语言模型的对抗性鲁棒性：一项实证研究

对大型语言模型的鲁棒性进行了攻击和评估，并在五项不同的文本分类任务上建立了新的鲁棒性基准，研究结果对可靠部署语言模型并推动可信人工智能系统的发展具有重要意义。

May, 2024

大型语言模型中的漏洞和保护探索: 调查

大型语言模型是各种人工智能应用中的关键组件，理解它们的安全漏洞和防御机制的有效性至关重要。本文调查了LLMs的安全挑战，重点关注两个主要领域：Prompt Hacking和Adversarial Attacks，每个领域都有特定类型的威胁。通过对Prompt Hacking和Adversarial Attacks的分析，研究了它们的工作原理、潜在影响以及缓解方法。调查强调了这些安全挑战，并讨论了保护LLMs免受这些威胁的强大防御框架。通过详细阐述这些安全问题，调查为抵御复杂攻击的坚韧人工智能系统的构建提供了宝贵的讨论。

Jun, 2024

朝着确保欧盟人工智能法合规性和大语言模型的对抗性鲁棒性

本研究针对大语言模型的误用和安全威胁提出了框架，帮助工程师和利益相关者理解和记录AI系统在对抗性鲁棒性方面的合规性和安全性。其关键创新在于使用本体、保障案例和事实表，以便于遵循欧盟人工智能法的标准并应对潜在威胁。

Oct, 2024

基于本体驱动的论证实现大型语言模型的对抗鲁棒性保障

本研究解决了大型语言模型（LLMs）在安全性、透明性和可解释性方面的挑战，尤其是对抗攻击的脆弱性。通过引入基于 formal argumentation 的新方法，利用本体对攻击和防御进行正式化，从而创建易于人类理解的保障案例和机器可读表示。研究表明，这种方法在英语语言和代码翻译任务中的应用具有重要的理论和实践意义。

Oct, 2024

利用大语言模型作为对抗引擎推进自然语言处理安全

本论文旨在通过利用大语言模型（LLMs）生成多样化的对抗攻击，来解决自然语言处理(NLP)安全领域的不足。我们提出了一个新颖的方法，扩展了LLMs在生成词级对抗示例中的应用，涵盖了对抗补丁、通用扰动和目标攻击等多种攻击类型。研究发现，LLMs的语言理解与生成能力可以生成更有效的、语义连贯的人类样式的对抗示例，从而提升模型的鲁棒性，揭示新漏洞，并推动防御机制的创新。

Oct, 2024

全球安全与稳健大型语言模型挑战赛第一赛道

本文介绍了全球安全与稳健大型语言模型（LLMs）挑战赛的第一赛道，旨在促进针对自动越狱攻击的先进防御机制的开发。通过这项比赛，参与者被要求开发自动化方法以探测LLMs的漏洞，从而提升现有安全协议的有效性，并为创建更强韧的模型提供见解。

Nov, 2024

大型语言模型安全：全面调查

本研究主要解决大型语言模型（LLM）在关键应用中的安全隐患，特别是价值不对齐、抵御攻击的鲁棒性、误用及自主AI风险等问题。论文通过对现有安全评估方法的系统综述，提出需采取多层面的主动措施来确保LLM的安全性，包括技术解决方案、伦理考量及治理框架。本研究为相关领域的学者、业界从业者及政策制定者提供了宝贵的见解，有助于推动LLM的安全和有效发展。

Dec, 2024