关于代码大型语言模型中的木马签名

Feb, 2024

关于代码大型语言模型中的木马签名

On Trojan Signatures in Large Language Models of Code

Aftab Hussain, Md Rafiqul Islam Rabin, Mohammad Amin Alipour

TL;DR我们研究了基于源代码的大型语言模型中分类器层参数中的木马签名，发现这种签名无法推广到代码的大型语言模型中，因此仅通过权重在这些模型中检测木马是一个难题。

Abstract

trojan signatures, as described by Fields et al. (2021), are noticeable differences in the distribution of the trojaned class parameters (weights) and the non-trojaned class parameters of the trojaned model, that can be used to detect the trojaned model. Fields et al. (2021) found

trojan signatures computer vision language models source code weight-based trojan signature

发现论文，激发创造

利用激活优化检测特洛伊模型

本文提出了一种基于激活优化的机器学习预训练模型特征提取方法，并训练分类器来检测 Trojan 模型，该方法在两个公开数据集上达到了最先进的性能。

Jun, 2023

代码大型语言模型中的木马：通过基于触发器的分类方法进行关键回顾

大型语言模型在软件开发中提供了许多令人兴奋的新功能，然而，这些模型的不透明性使得它们难以理解和检查，其不透明性带来了潜在的安全风险，因为对手可以训练和部署被损害的模型来干扰受害组织的软件开发过程，本研究总结了当前大型代码语言模型中特洛伊木马攻击的最新进展，并重点关注触发器 —— 特洛伊木马的主要设计要点，同时用一种新颖的触发器分类框架提供统一的定义。我们还希望对 Code LLMs 领域中的基本概念给出一个统一的定义，并对触发器设计对代码模型学习的影响进行讨论。

May, 2024

大型语言模型中的特洛伊木马检测：来自特洛伊木马检测挑战的见解

大语言模型（LLMs）在各个领域展示出了显著的能力，但它们对木马或后门攻击的脆弱性带来了重大的安全风险。本研究探讨了通过特洛伊检测竞赛 2023（TDC2023）获得的挑战和见解，该竞赛的重点是识别和评估对 LLMs 的特洛伊攻击。我们研究了区分有意和无意触发器之间的困难，以及在实际情况中逆向工程特洛伊的可行性。我们对各种特洛伊检测方法进行了比较分析，发现实现高召回率比获得高逆向工程攻击成功率（REASR）更具挑战性。竞赛中表现最佳的方法实现了约 0.16 的召回率，与从与训练前缀类似的分布中随机抽取句子的简单基线相当。这一发现提出了关于仅给定有害目标的情况下模型中插入的特洛伊的可检测性和恢复性的问题。尽管无法完全解决问题，但该竞赛揭示了关于特洛伊检测的可行性和改进 LLM 输入提示技术的有趣观察。无意触发器的现象及其与有意触发器的区分困难突显了对 LLMs 的鲁棒性和可解释性进行进一步研究的需求。TDC2023 对于特洛伊检测在 LLMs 中的挑战和机遇提供了宝贵的见解，为今后在这一领域确保其在实际应用中的安全性和可靠性奠定了基础。

Apr, 2024

为了娱乐和利益对语言模型进行特洛伊植入

本研究旨在研究恶意预训练语言模型对 NLP 系统带来的安全威胁，通过 TROJAN-LM 攻击来实现 NLP 系统的误操作，并提供分析性证明及可能的对策。

Aug, 2020

关于精细化语言模型中的后门攻击

插入语言模型中的木马可以在对其进行细化以确定产品评价情感等特定应用时进行。本文阐明并实证探索数据污染威胁模型的各种变体，然后实证评估两种简单的防御策略，针对不同的防御场景。最后，对相关的攻击和防御进行简要调查。

Jun, 2024

基于扰动敏感性的自然语言处理神经木马检测框架 PerD

该论文提出了一种基于模型输出偏差分析的模型级神经木马检测框架来检测 NLP 领域的神经木马，并提出了一种轻量级变体以提高检测速度。

Aug, 2022

Cassandra: 从对抗扰动中检测木马网络

本文提出了一种检测预训练模型是否被恶意篡改的方法，该方法通过学习神经网络的参数来捕获其对抗扰动，以检测是否存在后门；同时，本文还提出了一种异常检测方法来确定被感染的网络的目标类别。实验结果表明该方法检测恶意后门的准确率高达 92% 以上。

Jul, 2020

深度神经网络中特洛伊攻击的表面简单方法

本文提出了一种新的训练免费的攻击方法，使用一个小的特洛伊模块（TrojanNet）将恶意特征插入目标模型，该模型通过特殊标记对输入进行标记，并将所有标签注入特洛伊，攻击成功率达到 100％，且不会影响模型在原始任务上的准确性。

Jun, 2020

基于 Transformer 的恶意软件检测器的对抗性攻击

探究基于机器学习的恶意软件检测模型的安全性，使用 Transformers-based 恶意软件检测器进行对抗攻击，提出防御策略，将错误分类率降至一半。

Oct, 2022

高保真模型提取中超越缓慢标志

该研究评估了对于在标准基准上训练的模型使用 Carlini 等人 [1] 进一步加强的参数提取方法的可行性，引入了统一的代码库并发现计算工具可以显著影响性能；通过识别更容易和更难提取的神经元，开发了进一步的优化方案，将提取权重值的效率提高了 14.8 倍；改进后，在只有 98 分钟的时间内，成功地提取了一个在 MNIST 数据集上训练的具有 16,721 个参数和 2 个隐藏层的模型，相较于之前至少需要 150 分钟的时间，同时针对先前研究中观察到的方法论缺陷，提出了未来模型提取攻击的新型健壮基准测试方法。

Jun, 2024