- SHIELD:LLM 文本生成中版权合规的评估与防御策略
当前大型语言模型存在版权侵权问题,相关挑战包括版权合规评估、鲁棒性防御以及生成版权文本的有效防御机制。本文介绍了一个数据集用于评估方法、测试攻击策略,并提出了轻量级、实时的防御机制以确保大型语言模型的安全合法使用。实验证明,当前大型语言模型 - AI 代理的安全性
通过研究典型 AI 代理的工作流程和体验,我们从系统安全的角度详细描述了 AI 代理中存在的潜在漏洞,强调了其原因和严重影响,并介绍了相应的防御机制及其有效性评估实验,从而让 AI 代理的安全性和可靠性得到进一步提升。
- 潜伏在暗影中:揭示针对个性化联邦学习的隐蔽后门攻击
个性化联邦学习(PFL)系统中存在潜在的后门攻击威胁,这些攻击可以通过优化触发器生成过程来无缝嵌入个性化模型,而现有的防御机制在面对这种攻击时往往显得无力。
- ASV 系统对抗假冒攻击的自然防御程度如何?
研究了自动说话人验证(ASV)任务中的欺骗攻击,并通过对不同 ASV 系统和欺骗攻击系统的分析,证明了 ASV 系统的进化本质上包含了对欺骗攻击的防御机制。然而,研究还强调了欺骗攻击的进步远远超过了 ASV 系统的进展,因此需要进一步研究针 - 大型语言模型中的漏洞和保护探索:调查
大型语言模型是各种人工智能应用中的关键组件,理解它们的安全漏洞和防御机制的有效性至关重要。本文调查了 LLMs 的安全挑战,重点关注两个主要领域:Prompt Hacking 和 Adversarial Attacks,每个领域都有特定类型 - 调查和揭示卷积神经网络对对抗扰动的特征级漏洞
通过对深度学习模型的不同层进行敌对性扰动攻击验证,研究表明浅层的通道组合对模型的干扰较大,在不同攻击类型中具有共享的易受攻击通道组合,而不同攻击对隐藏表示的影响存在差异且与卷积核大小呈正相关,以此为基础为未来应用开发高效的应对性防御机制奠定 - 文本到图像生成 AI 系统的自动越狱
最近的 AI 系统在各种任务上展现了极强的性能,甚至超过了人类的表现,包括基于大型语言模型(LLMs)的信息检索、语言生成和图像生成。然而,由于绕过 LLMs 的对齐而产生恶意内容的各种安全风险,通常被称为越狱,而以文本为基础的 LLMs - 大型语言模型中毒性的实际评估
该研究介绍了新的 “全面优化毒性”(TET)数据集,由手工设计的提示构成,旨在抵消这些模型的保护层,通过广泛的评估,证明了 TET 在评估几种流行的 LLMs 中毒性意识方面的重要作用,凸显了正常提示下可能隐藏的 LLMs 中的毒性,从而揭 - 去中心化学习的隐私保护聚合算法及其拜占庭容错性
SecureDL 是一种新颖的分布式机器学习协议,通过安全多方计算保护客户端模型更新的隐私,提高对拜占庭威胁的安全性和隐私保护。该协议使用余弦相似度的有效计算和更新的归一化来稳健地检测和排除对模型收敛有害的模型更新,并在多种拜占庭攻击中表现 - 基于中心的放松学习对抗成员推断攻击
通过提出一种新的架构适应性训练范式(称为 CRL),我们在保持模型的成员一致性的同时,能够提供隐私保护,并且无需或仅需最小程度地损失模型的泛化能力,从而解决了现有防御方法和理想模型之间在性能和部署成本方面的差距。
- Aegis 的实证研究
对 Aegis 框架进行了经验性研究,发现其动态退出策略和鲁棒性训练存在一些缺陷,特别是在扰动数据和对抗样本上的准确度下降问题,同时发现当在更简单的数据集上进行测试时,动态退出策略的一致性有所下降。
- 评估对抗稳健性:FGSM、Carlini-Wagner 攻击的比较及蒸馏在防御机制中的作用
这篇学术论文深入探讨了针对图像分类任务中使用的深度神经网络(DNN)的对抗性攻击,并调查了旨在增强机器学习模型鲁棒性的防御机制。研究聚焦于理解两种主要攻击方法的影响:快速梯度符号法(FGSM)和 Carlini-Wagner(CW)方法。该 - 探索对抗前沿:通过对抗超体积量化健壮性
通过提出一种新的测量指标 —— 对抗超体积(adversarial hypervolume),该研究验证了该指标对于揭示深度学习模型鲁棒性中微妙差异的有效性,为当前和未来的防御模型的韧性评估和基准制定提供了标准。
- 大规模语言模型的自动且通用提示注入攻击
自动梯度方法生成高效、通用的提示注入数据,彰显梯度测试的重要性,尤其是对于防御机制。
- 使用集成树减轻恶意 URL 检测器中的标签翻转攻击
通过研究恶意 URL,在集成树的背景下,揭示了背后攻击的动机,强调了攻击者的角色和有效防御策略的重要性。提出了一种创新的警报系统,可以检测到被污染的标签,以及一种用于揭示原始类标签从而缓解背后攻击的防御机制。利用 Alexa 和钓鱼网站 U - 基于阿拉伯语同义词 BERT 的文本分类对抗样本
通过引入第一个阿拉伯语的词级研究,我们使用基于掩蔽语言建模任务的同义词替换攻击,评估了最先进的文本分类模型对于阿拉伯语中的对抗攻击的鲁棒性,并研究了这些对抗样本的语法和语义相似性、传递性攻击的有效性以及关于 BERT 模型的防御机制的效果。 - 大型语言模型的安全与隐私挑战概述
该文综述了大型语言模型在安全与隐私方面面临的挑战,分析了其脆弱性,并审查了潜在的攻击方式与防御机制,还指出了该领域中的研究空白与未来发展方向。
- 无线联邦学习中的数据和模型投毒后门攻击及防御机制:综述
该研究综述了最新的后门攻击和防御机制,根据目标(数据污染或模型污染)、攻击阶段(本地数据收集、训练或聚合)和防御阶段(本地训练、聚合前、聚合期间或聚合后)进行了分类。对现有攻击策略和防御机制的优劣进行了详细分析。对现有攻击方法和防御设计进行 - FreqFed: 基于频率分析的联邦学习中缓解污染攻击的方法
FreqFed 是一种新颖的聚合机制,通过将模型更新转换到频域,可以有效过滤掉恶意攻击,无论攻击类型、策略和客户端数据分布,从而在不影响聚合模型的实用性的前提下有效缓解毒化攻击。
- 针对联邦学习的数据不可知模型污染:一种图自编码器方法
该研究提出了一种基于对抗图自编码器的新颖的数据无关型模型污染攻击方法,攻击者通过监听无害的本地模型和全局模型来提取其中的图结构关联,并用对抗性图结构和训练数据特征生成恶意本地模型,导致联邦学习的准确性逐渐下降,现有的防御机制无法检测这种攻击