大型语言模型中的特洛伊木马检测：来自特洛伊木马检测挑战的见解

Apr, 2024

大型语言模型中的特洛伊木马检测：来自特洛伊木马检测挑战的见解

Trojan Detection in Large Language Models: Insights from The Trojan Detection Challenge

Narek Maloyan, Ekansh Verma, Bulat Nutfullin, Bislan Ashinov

TL;DR大语言模型（LLMs）在各个领域展示出了显著的能力，但它们对木马或后门攻击的脆弱性带来了重大的安全风险。本研究探讨了通过特洛伊检测竞赛 2023（TDC2023）获得的挑战和见解，该竞赛的重点是识别和评估对 LLMs 的特洛伊攻击。我们研究了区分有意和无意触发器之间的困难，以及在实际情况中逆向工程特洛伊的可行性。我们对各种特洛伊检测方法进行了比较分析，发现实现高召回率比获得高逆向工程攻击成功率（REASR）更具挑战性。竞赛中表现最佳的方法实现了约 0.16 的召回率，与从与训练前缀类似的分布中随机抽取句子的简单基线相当。这一发现提出了关于仅给定有害目标的情况下模型中插入的特洛伊的可检测性和恢复性的问题。尽管无法完全解决问题，但该竞赛揭示了关于特洛伊检测的可行性和改进 LLM 输入提示技术的有趣观察。无意触发器的现象及其与有意触发器的区分困难突显了对 LLMs 的鲁棒性和可解释性进行进一步研究的需求。TDC2023 对于特洛伊检测在 LLMs 中的挑战和机遇提供了宝贵的见解，为今后在这一领域确保其在实际应用中的安全性和可靠性奠定了基础。

Abstract

large language models (LLMs) have demonstrated remarkable capabilities in various domains, but their vulnerability to trojan or backdoor attacks poses significant security risks. This paper explores the challenges and insights gained from the →

large language models trojan detection competition trojan attacks distinguishing intended and unintended triggers robustness of llms

发现论文，激发创造

代码大型语言模型中的木马：通过基于触发器的分类方法进行关键回顾

大型语言模型在软件开发中提供了许多令人兴奋的新功能，然而，这些模型的不透明性使得它们难以理解和检查，其不透明性带来了潜在的安全风险，因为对手可以训练和部署被损害的模型来干扰受害组织的软件开发过程，本研究总结了当前大型代码语言模型中特洛伊木马攻击的最新进展，并重点关注触发器 —— 特洛伊木马的主要设计要点，同时用一种新颖的触发器分类框架提供统一的定义。我们还希望对 Code LLMs 领域中的基本概念给出一个统一的定义，并对触发器设计对代码模型学习的影响进行讨论。

May, 2024

为了娱乐和利益对语言模型进行特洛伊植入

本研究旨在研究恶意预训练语言模型对 NLP 系统带来的安全威胁，通过 TROJAN-LM 攻击来实现 NLP 系统的误操作，并提供分析性证明及可能的对策。

Aug, 2020

TrojPrompt：预训练语言模型的黑盒特洛伊攻击

本文针对基于 Prompt 学习的预训练语言模型 API 的安全问题进行了研究，提出了 TrojPrompt 框架以解决现有的后门攻击问题，并在现实世界的黑盒预训练语言模型 API 中成功插入了木马，同时保持出色的性能。

Jun, 2023

关于代码大型语言模型中的木马签名

我们研究了基于源代码的大型语言模型中分类器层参数中的木马签名，发现这种签名无法推广到代码的大型语言模型中，因此仅通过权重在这些模型中检测木马是一个难题。

Feb, 2024

大型语言模型在漏洞检测方面的能力综合研究

大型语言模型在漏洞检测方面的推理能力较差，常出现错误定位漏洞代码和错误识别漏洞类型的情况。

Mar, 2024

关于精细化语言模型中的后门攻击

插入语言模型中的木马可以在对其进行细化以确定产品评价情感等特定应用时进行。本文阐明并实证探索数据污染威胁模型的各种变体，然后实证评估两种简单的防御策略，针对不同的防御场景。最后，对相关的攻击和防御进行简要调查。

Jun, 2024

TrojanRAG: 大型语言模型中的检索增强生成可以成为后门驱动程序

利用 Retrieval-Augmented Generation 进行联合后门攻击，针对大型语言模型（LLMs）的安全威胁进行探讨，通过构建精巧的目标上下文和触发器集合，通过对比学习优化多对后门快捷方式，从而限制触发条件以提高匹配率，并引入知识图谱进行结构化数据构建实现目标上下文的精确匹配，验证后门对 LLMs 的真实伤害以及上下文是否为越狱模型提供有利工具，实验证明 TrojanRAG 在正常查询中保持检索能力同时展示多样化的安全威胁。

May, 2024

利用激活优化检测特洛伊模型

本文提出了一种基于激活优化的机器学习预训练模型特征提取方法，并训练分类器来检测 Trojan 模型，该方法在两个公开数据集上达到了最先进的性能。

Jun, 2023

基于拓扑先验的特洛伊木马检测触发器探测

探讨如何检测 DNN 在受到 Backdoor 攻击后的 Trojan，提出新颖的优先条件，如多样性和拓扑简单性，来增加发现合适触发器的可能性和改善触发器的质量，从而有效地提高了 Trojan 进行检测的准确性。

Oct, 2021

利用大型语言模型进行软件漏洞检测：综合基准研究

通过使用大型语言模型（LLMs）来辅助发现源代码中的漏洞，相比传统的静态分析工具，我们发现 LLMs 能够找出更多问题，提高漏洞检测的回溯率和 F1 分数，从而使得代码更加安全。

May, 2024