为了娱乐和利益对语言模型进行特洛伊植入

Aug, 2020

为了娱乐和利益对语言模型进行特洛伊植入

Trojaning Language Models for Fun and Profit

Xinyang Zhang, Zheng Zhang, Shouling Ji, Ting Wang

TL;DR本研究旨在研究恶意预训练语言模型对 NLP 系统带来的安全威胁，通过 TROJAN-LM 攻击来实现 NLP 系统的误操作，并提供分析性证明及可能的对策。

Abstract

Recent years have witnessed the emergence of a new paradigm of building natural language processing (NLP) systems: general-purpose, pre-trained language models (LMs) are composed with simple downstream models and fine-tuned for a variety of NLP tasks. This paradigm shift significantly simplifies the system development cycles. However, as many LMs are provide

pre-trained language models nlp systems security threats trojan-lm adversary

发现论文，激发创造

代码大型语言模型中的木马：通过基于触发器的分类方法进行关键回顾

大型语言模型在软件开发中提供了许多令人兴奋的新功能，然而，这些模型的不透明性使得它们难以理解和检查，其不透明性带来了潜在的安全风险，因为对手可以训练和部署被损害的模型来干扰受害组织的软件开发过程，本研究总结了当前大型代码语言模型中特洛伊木马攻击的最新进展，并重点关注触发器 —— 特洛伊木马的主要设计要点，同时用一种新颖的触发器分类框架提供统一的定义。我们还希望对 Code LLMs 领域中的基本概念给出一个统一的定义，并对触发器设计对代码模型学习的影响进行讨论。

May, 2024

TrojPrompt：预训练语言模型的黑盒特洛伊攻击

本文针对基于 Prompt 学习的预训练语言模型 API 的安全问题进行了研究，提出了 TrojPrompt 框架以解决现有的后门攻击问题，并在现实世界的黑盒预训练语言模型 API 中成功插入了木马，同时保持出色的性能。

Jun, 2023

大型语言模型中的特洛伊木马检测：来自特洛伊木马检测挑战的见解

大语言模型（LLMs）在各个领域展示出了显著的能力，但它们对木马或后门攻击的脆弱性带来了重大的安全风险。本研究探讨了通过特洛伊检测竞赛 2023（TDC2023）获得的挑战和见解，该竞赛的重点是识别和评估对 LLMs 的特洛伊攻击。我们研究了区分有意和无意触发器之间的困难，以及在实际情况中逆向工程特洛伊的可行性。我们对各种特洛伊检测方法进行了比较分析，发现实现高召回率比获得高逆向工程攻击成功率（REASR）更具挑战性。竞赛中表现最佳的方法实现了约 0.16 的召回率，与从与训练前缀类似的分布中随机抽取句子的简单基线相当。这一发现提出了关于仅给定有害目标的情况下模型中插入的特洛伊的可检测性和恢复性的问题。尽管无法完全解决问题，但该竞赛揭示了关于特洛伊检测的可行性和改进 LLM 输入提示技术的有趣观察。无意触发器的现象及其与有意触发器的区分困难突显了对 LLMs 的鲁棒性和可解释性进行进一步研究的需求。TDC2023 对于特洛伊检测在 LLMs 中的挑战和机遇提供了宝贵的见解，为今后在这一领域确保其在实际应用中的安全性和可靠性奠定了基础。

Apr, 2024

关于精细化语言模型中的后门攻击

插入语言模型中的木马可以在对其进行细化以确定产品评价情感等特定应用时进行。本文阐明并实证探索数据污染威胁模型的各种变体，然后实证评估两种简单的防御策略，针对不同的防御场景。最后，对相关的攻击和防御进行简要调查。

Jun, 2024

运用大型语言模型革新网络威胁检测

本文介绍了 SecurityLLM，它是一个旨在检测网络安全威胁的预训练语言模型，其中 SecurityBERT 作为网络威胁检测机制，而 FalconLLM 则是一种事件响应和恢复系统，实验结果表明，我们的 SecurityLLM 模型可以在 98% 的准确率下识别 14 种不同类型的攻击。

Jun, 2023

TrojText: 测试时隐形文本木马插入

本文介绍 TrojText 解决方案，旨在确定是否能够在没有训练数据的情况下更高效、更省成本地执行文本特洛伊攻击。其提出的算法 RLI 利用较小的采样测试数据而不是大量的训练数据来实现所需的攻击，并引入了 AGR 和 TWP 使得攻击开销更小。在三个数据集（AG's News，SST-2 和 OLID）中评估了 TrojText 方法，使用三个 NLP 模型（BERT，XLNet 和 DeBERTa），结果表明 TrojText 方法在 BERT 模型上为 AG's News 数据集中的目标类别测试句子实现了 98.35％的分类精度。

Mar, 2023

快速采用，隐含风险：大型语言模型定制的双重影响

我们的研究论文首次提出了针对与不受信任的定制大型语言模型（例如 GPTs）集成的应用程序的指令后门攻击，这些攻击通过设计带有后门指令的提示将后门嵌入到定制的语言模型中，并在输入包含预定义触发器时输出攻击者所需的结果。我们的研究结果强调了定制化语言模型（如 GPTs）的脆弱性和潜在风险。

Feb, 2024

通过探索进行 Fine-Tuning 的大型语言模型，转变计算机安全与公众信任

探讨大型语言模型在恶意服务 Mallas 的滥用方面的有效性和漏洞，以及针对已识别漏洞生成代码和解释文本的微调方法。研究旨在揭示 Mallas 的操作策略和攻击技术，从而为开发更安全可信赖的人工智能应用程序提供指导。强调进一步研究、增强保护措施和伦理准则以应对大型语言模型恶意应用的风险。

Jun, 2024

大型语言模型攻击的比较调查

通过综述各种在大型语言模型上攻击的形式及机制，以及其潜在影响和当前的防御策略，该论文探讨了大型语言模型的安全性和脆弱性方面的问题。研究主题包括旨在操纵模型输出的对抗性攻击、影响模型训练的数据污染，以及与训练数据利用相关的隐私问题。论文还探讨了不同攻击方法的有效性、大型语言模型对这些攻击的弹性以及对模型完整性和用户信任的影响。通过研究最新的研究成果，提供对大型语言模型的脆弱性和防御机制的深入了解，旨在引起人工智能社区的关注，并激发切实解决这些风险的方法。

Mar, 2024

在防御系统中的提示注入攻击

通过三层防御机制，本研究调查了对大型语言模型的黑盒攻击方法，分析了这些攻击所带来的挑战和重要性，评估了现有攻击和防御方法的有效性和适用性，并特别关注了黑盒攻击的检测算法，用于识别语言模型中的危险漏洞和获取敏感信息，提出了一种对大型语言模型进行黑盒攻击的漏洞检测方法和防御策略的开发。

Jun, 2024