- 大语言模型对意识形态操控的易感性研究
大型语言模型(LLMs)可能对公众对信息的认知和互动产生重大影响,因此需要对其内部思想意识是否可以轻易操纵引起关注。本研究探讨了 LLMs 在指导训练数据中学习和推广意识形态偏见的效果,并揭示了令人担忧的脆弱性:仅接触少量的思想倾向样本就会 - 恢复生成模型的预 Fine-Tuning 权重
通过使用少量低秩(LoRA)微调模型,我们提出了一种名为 Spectral DeTuning 的方法,能够恢复出预微调模型的权重,利用这一新的漏洞攻击大规模模型。
- 利用语言和视觉 AI 系统中的 Alpha 透明度
通过研究我们发现了一种基于 PNG 图像文件格式中的 Alpha 透明图层的新利用方法,它有潜力欺骗多个人工智能视觉系统。这种方法利用 Alpha 图层作为一个对人类观察者来说不可见但完全可被人工智能图像处理器使用的秘密通道。我们测试的范围 - 数据中毒对反事实解释的影响
对反事实解释在数据中毒方面的鲁棒性进行研究,发现目前的方法和工具包在面对数据中毒攻击时存在漏洞
- 深度强化学习中对抗输入的分析
通过正式验证的视角,我们对敌对输入的特征进行了全面分析,提出了一种新的指标 —— 敌对率,用于划分模型对此类扰动的敏感性,并提供了计算该指标的一系列工具和算法。我们的分析在实证上展示了敌对输入如何影响给定深度强化学习系统在敏感性方面的安全性 - 研究 R 中易受攻击的代码实体
本研究主要调查了 Code-PLMs 在 R 语言中的代码实体的脆弱性,结果显示标识符是最容易受到攻击的代码实体,其次是一些特定于 R 语言的语法标记,这些结果对于理解标记类型的重要性以及开发 R 语言的代码摘要和方法名预测模型具有指导意义 - 视觉伪造技术 LLMs 自我生成的字体攻击
大视觉 - 语言模型(LVLMs)对印刷攻击的脆弱性进行了研究,并引入了一种新的基准测试和一种更有效的自动生成印刷攻击方法。
- BackdoorBench: 一个全面的后门学习基准和分析
我们建立了一个名为 BackdoorBench 的综合基准,提供实时攻击和防御算法的集成实现,并通过全面的评估和多个分析工具对其进行深入分析,旨在为后门学习领域的研究提供一个牢固的基础。
- PGN:对深度强化学习的扰动生成网络
提出一种新的生成模型来攻击代理并探索深度强化学习的易受攻击性,通过针对深度强化学习的行动一致性率和新的有效性与隐蔽性测量指标,实现针对性攻击和非针对性攻击,并展示了该方法相比其他算法在攻击的效果和隐蔽性方面的优势以及验证深度强化学习易受攻击 - 理解 CLIP 对图像压缩的脆弱性
通过分析 CLIP 模型的脆弱性,我们揭示了其中关于图像质量和压缩对零样本图像识别准确性影响的本质,并在 CIFAR-10 和 STL-10 数据集上进行了广泛评估,从而为改进 CLIP 和其他视觉语言模型的鲁棒性提供了基础。
- 优化针对常见扰动的稳健性:基于类别专家混合模型的研究
通过引入一种称为 Mixture of Class-Specific Expert Architecture 的新范式,该研究旨在增强神经网络在现实场景中的可适应性和性能,通过为每个类别训练专用的网络段并聚合它们的输出来减轻常见神经网络结构 - 转置攻击:通过双向训练窃取数据集
神经网络存在漏洞可在双向上执行不同任务的训练,导致对抗者能够将恶意模型隐藏在表面上合法的模型中,此外神经网络还能被教导有系统地记忆和检索特定样本,这些发现展示了一种对抗者能够在受保护的学习环境中以合法模型的假象下窃取数据集的新方法,我们通过 - 基于梯度的联合学习中的最大知识正交重构
通过一种新的分析方法,最大限度地保护隐私,同时从客户端的梯度更新中高效而不引人注目地重建输入图像,以弥补现有方法在批量大小较大时的图像质量较差,从而引起了对联邦学习隐私保护的进一步研究的重视。
- EMNLPVECHR:欧洲人权法院漏洞类型可解释及稳定分类数据集
通过 VECHR 数据集,对 ECtHR 的脆弱性判断进行研究和实证分析,结果表明了此任务的挑战性及各种模型在预测性能、可解释性和鲁棒性方面的局限性。
- 医学基础模型易受有针对性的错误信息攻击
通过有针对性地操纵模型权重的 1.1%,我们能够向大规模语言模型中注入不正确的生物医学事实,并使其错误信息在模型的输出中传播,同时在其他生物医学任务上的性能保持不变。这种特殊的易受攻击性引发了在医疗保健环境中应用大规模语言模型时严重的安全与 - SAAM:对单目深度估计的隐蔽对抗攻击
我们研究了 MDE 系统对恶意补丁的脆弱性,提出了一种新颖的对 MDE 系统的隐蔽性恶意攻击方法(SAAM),通过破坏估计的距离或让物体与周围环境融为一体来损害 MDE 系统。我们的实验证明,设计的隐蔽补丁成功导致基于深度学习神经网络的 M - 城市基础设施相互依赖网络中易受攻击节点的检测
对城市基础设施的脆弱性进行建模与分析,利用基于图神经网络和强化学习的系统来准确刻画城市系统的脆弱性,包括城市设施的风险和脆弱性的发现。
- 使用预 - Softmax 分数的归因方法的一个漏洞
讨论了涉及一类用于给卷积神经网络输出提供解释的属性方法的漏洞,这类网络对对抗攻击是脆弱的,其中输入的微小扰动可能会改变模型的输出,而本文关注的是,在不改变模型输出的情况下,模型的微小修改可能对属性方法产生的影响。
- 基于骨架的动作识别中图卷积神经网络健壮性的傅里叶分析
本研究利用傅里叶分析探索了基于骨架的动作识别中图卷积神经网络的强健性和易损性,发现对抗训练是提高防御对抗攻击和常见损坏的实用方法,同时,它不能解释骨骼部分不完整性的易损性,这限制了傅里叶方法的应用。
- 基于自动化模糊测试与运行时分析的 NLP 跨层次 5G 漏洞检测
本研究提出了一种利用运行时分析和机器学习检测 5G 软件栈漏洞、异常行为和性能下降的创新方法,并在 srsRAN 上进行测试,准确性达到 93.4% 至 95.9%。该方法可应用于各个领域的 5G 应用与关键基础设施中,实时发现漏洞并进行优