代码大型语言模型中的木马：通过基于触发器的分类方法进行关键回顾

May, 2024

代码大型语言模型中的木马：通过基于触发器的分类方法进行关键回顾

Trojans in Large Language Models of Code: A Critical Review through a Trigger-Based Taxonomy

Aftab Hussain, Md Rafiqul Islam Rabin, Toufique Ahmed, Bowen Xu, Premkumar Devanbu...

TL;DR大型语言模型在软件开发中提供了许多令人兴奋的新功能，然而，这些模型的不透明性使得它们难以理解和检查，其不透明性带来了潜在的安全风险，因为对手可以训练和部署被损害的模型来干扰受害组织的软件开发过程，本研究总结了当前大型代码语言模型中特洛伊木马攻击的最新进展，并重点关注触发器 —— 特洛伊木马的主要设计要点，同时用一种新颖的触发器分类框架提供统一的定义。我们还希望对 Code LLMs 领域中的基本概念给出一个统一的定义，并对触发器设计对代码模型学习的影响进行讨论。

Abstract

large language models (LLMs) have provided a lot of exciting new capabilities in software development. However, the opaque nature of these models makes them difficult to reason about and inspect. Their opacity gi

large language models trojan attacks triggers software development code llms

发现论文，激发创造

为了娱乐和利益对语言模型进行特洛伊植入

本研究旨在研究恶意预训练语言模型对 NLP 系统带来的安全威胁，通过 TROJAN-LM 攻击来实现 NLP 系统的误操作，并提供分析性证明及可能的对策。

Aug, 2020

大型语言模型中的特洛伊木马检测：来自特洛伊木马检测挑战的见解

大语言模型（LLMs）在各个领域展示出了显著的能力，但它们对木马或后门攻击的脆弱性带来了重大的安全风险。本研究探讨了通过特洛伊检测竞赛 2023（TDC2023）获得的挑战和见解，该竞赛的重点是识别和评估对 LLMs 的特洛伊攻击。我们研究了区分有意和无意触发器之间的困难，以及在实际情况中逆向工程特洛伊的可行性。我们对各种特洛伊检测方法进行了比较分析，发现实现高召回率比获得高逆向工程攻击成功率（REASR）更具挑战性。竞赛中表现最佳的方法实现了约 0.16 的召回率，与从与训练前缀类似的分布中随机抽取句子的简单基线相当。这一发现提出了关于仅给定有害目标的情况下模型中插入的特洛伊的可检测性和恢复性的问题。尽管无法完全解决问题，但该竞赛揭示了关于特洛伊检测的可行性和改进 LLM 输入提示技术的有趣观察。无意触发器的现象及其与有意触发器的区分困难突显了对 LLMs 的鲁棒性和可解释性进行进一步研究的需求。TDC2023 对于特洛伊检测在 LLMs 中的挑战和机遇提供了宝贵的见解，为今后在这一领域确保其在实际应用中的安全性和可靠性奠定了基础。

Apr, 2024

大型语言模型的安全风险分类

通过针对大型语言模型（LLM）存在的安全风险进行评估，本研究填补了当前研究的空白，并提出了一种基于提示的攻击风险分类方法，以强调 LLM 在用户 - 模型通信路径上的安全风险。该分类方法通过具体的攻击示例加以支持，并旨在为安全性强、值得信赖的 LLM 应用程序的开发提供指导。

Nov, 2023

利用大型语言模型进行软件漏洞检测：综合基准研究

通过使用大型语言模型（LLMs）来辅助发现源代码中的漏洞，相比传统的静态分析工具，我们发现 LLMs 能够找出更多问题，提高漏洞检测的回溯率和 F1 分数，从而使得代码更加安全。

May, 2024

大型语言模型在漏洞检测方面的能力综合研究

大型语言模型在漏洞检测方面的推理能力较差，常出现错误定位漏洞代码和错误识别漏洞类型的情况。

Mar, 2024

代码智能模型中的陷阱：分类与调查

通过对现有研究的综述和分类研究，我们发现了语言模型在代码智能方面的潜在问题和挑战，并提出了相应的解决方案，以构建可靠的针对代码智能的语言模型。

Oct, 2023

在防御系统中的提示注入攻击

通过三层防御机制，本研究调查了对大型语言模型的黑盒攻击方法，分析了这些攻击所带来的挑战和重要性，评估了现有攻击和防御方法的有效性和适用性，并特别关注了黑盒攻击的检测算法，用于识别语言模型中的危险漏洞和获取敏感信息，提出了一种对大型语言模型进行黑盒攻击的漏洞检测方法和防御策略的开发。

Jun, 2024

关于代码大型语言模型中的木马签名

我们研究了基于源代码的大型语言模型中分类器层参数中的木马签名，发现这种签名无法推广到代码的大型语言模型中，因此仅通过权重在这些模型中检测木马是一个难题。

Feb, 2024

网络安全中的大型语言模型：最新技术

通过评估对进攻和防御应用的研究，本研究旨在提供对 LLM 驱动的网络安全领域中潜在风险和机遇的整体理解。

Jan, 2024

DeepCode AI Fix: 用大型语言模型修复安全漏洞

使用大型语言模型的程序修复任务中，通过降低训练数据量、使用代码剪裁技术及构建全面的代码修复数据集，我们的系统能够在更少的案例中准确匹配人工修复，并显著提升可用模型的性能。

Feb, 2024