关于代码大型语言模型中的木马签名
大型语言模型在软件开发中提供了许多令人兴奋的新功能,然而,这些模型的不透明性使得它们难以理解和检查,其不透明性带来了潜在的安全风险,因为对手可以训练和部署被损害的模型来干扰受害组织的软件开发过程,本研究总结了当前大型代码语言模型中特洛伊木马攻击的最新进展,并重点关注触发器 —— 特洛伊木马的主要设计要点,同时用一种新颖的触发器分类框架提供统一的定义。我们还希望对 Code LLMs 领域中的基本概念给出一个统一的定义,并对触发器设计对代码模型学习的影响进行讨论。
May, 2024
大语言模型(LLMs)在各个领域展示出了显著的能力,但它们对木马或后门攻击的脆弱性带来了重大的安全风险。本研究探讨了通过特洛伊检测竞赛 2023(TDC2023)获得的挑战和见解,该竞赛的重点是识别和评估对 LLMs 的特洛伊攻击。我们研究了区分有意和无意触发器之间的困难,以及在实际情况中逆向工程特洛伊的可行性。我们对各种特洛伊检测方法进行了比较分析,发现实现高召回率比获得高逆向工程攻击成功率(REASR)更具挑战性。竞赛中表现最佳的方法实现了约 0.16 的召回率,与从与训练前缀类似的分布中随机抽取句子的简单基线相当。这一发现提出了关于仅给定有害目标的情况下模型中插入的特洛伊的可检测性和恢复性的问题。尽管无法完全解决问题,但该竞赛揭示了关于特洛伊检测的可行性和改进 LLM 输入提示技术的有趣观察。无意触发器的现象及其与有意触发器的区分困难突显了对 LLMs 的鲁棒性和可解释性进行进一步研究的需求。TDC2023 对于特洛伊检测在 LLMs 中的挑战和机遇提供了宝贵的见解,为今后在这一领域确保其在实际应用中的安全性和可靠性奠定了基础。
Apr, 2024
本研究旨在研究恶意预训练语言模型对 NLP 系统带来的安全威胁,通过 TROJAN-LM 攻击来实现 NLP 系统的误操作,并提供分析性证明及可能的对策。
Aug, 2020
插入语言模型中的木马可以在对其进行细化以确定产品评价情感等特定应用时进行。本文阐明并实证探索数据污染威胁模型的各种变体,然后实证评估两种简单的防御策略,针对不同的防御场景。最后,对相关的攻击和防御进行简要调查。
Jun, 2024
该论文提出了一种基于模型输出偏差分析的模型级神经木马检测框架来检测 NLP 领域的神经木马,并提出了一种轻量级变体以提高检测速度。
Aug, 2022
本文提出了一种检测预训练模型是否被恶意篡改的方法,该方法通过学习神经网络的参数来捕获其对抗扰动,以检测是否存在后门;同时,本文还提出了一种异常检测方法来确定被感染的网络的目标类别。实验结果表明该方法检测恶意后门的准确率高达 92% 以上。
Jul, 2020
本文提出了一种新的训练免费的攻击方法,使用一个小的特洛伊模块(TrojanNet)将恶意特征插入目标模型,该模型通过特殊标记对输入进行标记,并将所有标签注入特洛伊,攻击成功率达到 100%,且不会影响模型在原始任务上的准确性。
Jun, 2020
探究基于机器学习的恶意软件检测模型的安全性,使用 Transformers-based 恶意软件检测器进行对抗攻击,提出防御策略,将错误分类率降至一半。
Oct, 2022
该研究评估了对于在标准基准上训练的模型使用 Carlini 等人 [1] 进一步加强的参数提取方法的可行性,引入了统一的代码库并发现计算工具可以显著影响性能;通过识别更容易和更难提取的神经元,开发了进一步的优化方案,将提取权重值的效率提高了 14.8 倍;改进后,在只有 98 分钟的时间内,成功地提取了一个在 MNIST 数据集上训练的具有 16,721 个参数和 2 个隐藏层的模型,相较于之前至少需要 150 分钟的时间,同时针对先前研究中观察到的方法论缺陷,提出了未来模型提取攻击的新型健壮基准测试方法。
Jun, 2024